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2 半日 二 


HBase 是 一 种 NoSQL 存储 系统 ， 专 门 设计 用 来 快速 随机 读 写 大 规 
模 数 据 。HBase 运 行 在 普通 商用 服务 左上， 可 以 平滑 扩展 ， 以 文 持 从 中 
等 规模 到 数 十 亿 行 、 数 百 万 列 的 数据 集 。 

本 书 是 一 本 基于 经 验 提炼 而 成 的 指南 ， 它 教 给 读者 如 何 运 用 HBase 
设计 、 搭 建 及 运行 大 数据 应 用 系统 。 全 书 共 分 为 4 个 部 分 。 前 两 个 部 分 
分 别 介 绍 了 分 布 式 系统 和 大 规模 数据 处 理 的 发 展 历 史 ， 讲 解 HBase 的 基 
本 原理 模式 设计 以 及 如 何 使 用 HBase 的 高 级 特性 ; 第 三 部 分 通过 真实 的 
应 用 和 代码 示例 以 及 文 持 这 些 实践 技巧 的 理论 知识 ， 进 一 步 探 索 HBase 
的 一 些 实用 技术 ; 第 四 部 分 讲解 如 何 把 原型 开发 系统 升级 为 羽 悄 丰满 的 
Se 

本 书 适合 所 有 对 云 计 算 、 大 数据 处 理 技术 和 NoSQL 数 据 库 感 兴 趣 的 
技术 人 员 阅 读 ， 尤 其 适合 对 Hadoop 及 HBase 感 兴趣 的 技术 人 员 参 考 。 阅 
读本 书 不 要 求 之 前 具备 HBase、Hadoop 或 者 MapReduce 方 面 的 知识 。 
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互联 网 技术 已 飞速 发 展 十 几 年 ， 移 动 互 联网 的 崛起 更 是 如 火 如 茶 ， 
基于 iOS 和 Android 平台 的 智能 手机 在 中 国 已 是 过 地 开花 ， 使 得 用 户 接 
入 互联 网 的 方式 和 用 户 行为 正在 发 生 翻 天 宪 地 的 变化 ， 由 量变 引发 质 
变 ， 各 行 各 业 无 论 愿 意 与 否 ， 也 在 不 知 不 觉 中 经 历 着 深刻 变革 。 这 种 变 
化 映射 到 后 台 ， 一 个 决定 性 的 基础 环节 就 是 一 一 大 数据 。 是 的 ， 不 
是 “数据 ”， 而 是 “大 数据 ”! 现在 ， 无 论 在 数据 规模 、 数 据 类 型 、 数 据 来 
源 上 ， 与 几 年 前 已 经 截然 不 同 。 这 是 摆 在 很 多 企业 和 个 人 面前 的 一 个 机 
会 ， 同 时 也 是 一 个 挑战 ! 数据 不 必然 等 于 信息 ， 也 不 必然 等 于 价值 ， 只 
有 经 过 性 能 优异 的 大 数据 技术 平台 的 续 密 管理 ， 才 可 以 发 挥 “ 大 数据 ”的 
威力 ， 才 能 真正 挖掘 出 商业 价值 。 

近年 来 ， 各 种 管理 数据 的 技术 在 不 断 创新 ， 其 中 Hadoop 开 源 产 品系 
列 在 商业 实践 中 取得 了 广泛 认可 ， 几 近 成 为 事实 上 的 大 数据 管理 行业 标 
准 平台 。 而 HBase 正 是 Hadoop 产 品系 列 里 的 分 布 式 数据 库 平台 ， 主 要 应 
用 于 在 线 应 用 系统 。 当 访问 淘宝 、FaceBook， 或 者 访问 搜索 引擎 、 电 商 
门户 、 视 频 网 站 时 ， 你 或 多 或 少 已 经 使 用 了 某 些 基于 HBase 的 应 用 服 
务 。 在 互联 网 公司 里 ，HBase 和 Hadoop 的 应 用 已 经 有 些 年 头 了 。 现 在 的 
情况 是 ， 越 来 越 多 的 传统 企业 也 对 它们 表现 出 了 浓厚 的 兴趣 。 在 电信 、 
金融 、 生 物 制药 、 智 能 交通 、 医 疗 、 智 能 电网 等 行业 ， 越 来 越 多 的 企业 
用 户 和 解决 方案 提供 商 正 在 尝试 使 用 HBase 和 Hadoop 等 技术 ， 如 果 有 一 
天 你 发 现 你 的 话费 清单 数据 实际 上 来 自 于 HBase 系 统 而 不 是 Oracle 系 
统 ， 请 不 要 感到 奇怪 。 


























大 数据 的 概念 已 经 被 宣传 得 有 些 泛 滤 ， 但 是 如 何 搭 建 一 个 性 能 优异 
的 、 高 性 价 比 的 大 数据 解决 方案 却 谈 得 很 不 够 。《HBase 实战 》 正 是 谈 
论 这 个 话题 的 经 典 书 籍 ， 我 希望 本 书 在 国内 翻译 出 版 ， 有 助 于 宣传 和 推 
广 HBase 和 Hadoop 技 术 ， 把 大 数据 解决 方案 成 功 地 应 用 于 更 多 的 行业 。 

本 书 始终 沿 着 一 条 主线 由 浅 入 深 地 逐步 展开 ， 那 就 是 如 何 基 于 
HBase 搭 建 符合 生产 要 求 的 应 用 系统 。 此 外 ， 本 书 还 剖析 了 两 个 实际 使 
用 中 的 应 用 系统 ， 一 方面 验证 前 面 介 绍 的 设计 技巧 和 系统 特性 ， 另 一 方 
面 也 为 你 自己 的 应 用 系统 设计 提供 一 些 思路 和 启发。 最后， 本 书 还 简要 
总 结 了 HBase 运 维 方面 的 重要 内 容 。 总 体 来 看 ，HBase 和 传统 关系 型 数 
据 库 的 设计 初衷 有 很 大 不 同 ， 所 以 设计 基于 HBase 的 应 用 系统 也 大 有 不 
同 。 简 单 来 说 ， 针 对 高 否 吐 量 、 高 可 扩展 能 力 的 场合 ，HBase 的 表现 相 
当 令 人 惊讶 。HBase 的 使 用 场景 还 在 不 断 扩 展 ， 如 果 你 对 此 感 兴趣 ， 可 
以 通过 网 络 搜索 找到 更 多 信息 。 

HBase 和 Hadoop 现 在 都 是 Apache 软 件 基 金 会 的 顶级 项 目 ， 是 开源 软 
件 世 界 的 杰作 ， 它 们 的 思想 源 自 Google 的 三 大 论文 。 一 个 成 功 的 开源 
项 目 背后 往往 有 一 个 兴旺 的 开源 社区 ，HBase 和 Hadoop 也 是 如 此 。 但 
是 ， 由 于 语言 的 障碍 ， 以 及 国内 和 国外 沟通 偏好 的 差别 ， 国 内 的 朋友 参 
与 国外 的 开源 社区 时 ， 可 能 会 有 一 些 不 便利 之 处 。 基 于 这 个 考虑 ， 我 发 
起 建立 了 ChinaHadoop 社 区 (http://ChinaHadoop.net) ， 这 里 汇集 了 许多 
内 一 线 互联 网 公司 数据 平台 的 技术 专家 ， 希望 能 够 成 为 国内 大 数据 领 
域 最 有 活力 的 互动 和 分 享 平台 ， 将 Hadoop 的 开源 及 分 享 精神 发 扬 光 大 。 
借 此 机 会 诚 邀 你 参与 过 来 ! 

在 本 书 的 翻译 过 程 中 ， 我 得 到 了 来 自 ChinaHadoop 社 区 技术 专家 的 
大 力 文 持 。 其 中 ， 户 亿 雷 审 校 了 序言 、 第 1、7、8 章 ， 搜 狗 的 洗 戊 源 审 
校 了 第 4、5 半 ， 和 神州 数 码 的 何 德 芳 审 校 了 第 9、10 章 ， 新 浪 的 联 康 审 校 
了 第 2、3、6 章 ， 在 此 表示 衷心 感谢 ! 

感谢 华 窗 、 杨 智 樟 、 杜 航 等 朋友 ， 作 为 本 书 早期 的 读者 ， 他 们 给 出 






































了 很 多 有 建设 性 的 反馈 意见 。 

此 外 ， 本 书 的 责 癸 编 辑 杨 海 险 女 士 及 其 团队 在 整个 翻译 过 程 中 不 断 
给 予 反 饿 和 建议 ， 在 此 表示 衷心 的 感谢 。 

感谢 我 的 家 人 ， 他 们 总 是 默默 地 给 予 我 最 大 的 文 持 和 包容 ， 让 我 能 
够 集中 全 部 精力 投入 到 翻译 中 ， 本 书 的 翻译 占用 了 大 量 的 业余 时 间 ， 即 
使 是 4 岁 的 天 予 宝宝 也 知道 不 要 打扰 爷爷。 

于 我 而 言 ， 翻 译本 书 的 过 程 也 是 一 个 学 习 的 过 程 ;， 译 文中 知 有 错误 
或 者 不 足 之 处 ， 冤 请 读者 给 予 指正 ， 以 便 能 够 不 断 改 韦 。 来 信 请 联系 邮 
箱 ChinaHadoop@sina.com， 或 者 联系 新 浪 微 博 @ChinaHadoop。 本 书 勘 
误 也 会 及 时 公布 于 网 站 : http://ChinaHadoop.net。 

谢 大 


2013 年 6 月 25 日 于 照 澜 院 
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总 体 而 言 ，HBase 就 像 原 子弹 一 样 ， 正 反 两 面 特点 鲜明 。 一 方面 ， 
它 的 基本 操作 如 此 简单 ， 似 乎 在 酒杯 边 的 一 两 张 餐 巾 纸 的 背面 就 可 以 解 
释 清楚 ， 另 一 方面 ， 它 的 部 署 却 是 另 一 回 事 儿 ， 相 当 复 杂 。 

HBase 由 多 个 灵活 的 部 件 构成 ， 分 布 式 的 HBase 应 用 系统 包括 许多 
客户 端 和 服务 器 迎 程 。 例 如 ，HBase 在 Hadoop 分 布 式 文件 系统 

(Hadoop Distributed File System ) 上 存储 ; 此 外 ，HBase 使 用 了 另 一 个 

分 布 式 系统 Apache ZooKeeper 来 管理 整个 集群 状态 : 还 有 ， 大 多 数 的 部 
署 都 用 到 MapReduce， 用 来 批量 加 载 数据 或 者 运行 分 布 式 的 全 表 扫 描 等 
任务 。 显 然 ， 近 平 完美 地 把 各 个 部 分 组 合 在 一 起 是 相当 不 容易 的 。 

构建 合适 的 环境 和 做 出 适当 的 配置 对 于 HBase 来 说 是 至 关 重 要 的 。 
HBase 作 为 一 种 通用 的 数据 存储 ， 可 以 广泛 用 在 各 种 各 样 的 应 用 系统 
中 。 它 的 默认 设置 选择 了 保守 的 做 法 ， 主 要 面 对 通 用 的 使 用 场景 和 常见 
的 硬件 规模 。 它 的 适应 能 力 或 者 说 自我 调整 能 力 还 有 很 大 空间 ， 所 以 你 
可 以 根据 实际 的 硬件 和 负载 情况 来 调整 HBase， 但 往往 需要 经 过 多 次 党 
试 后 才 可 以 得 到 正确 的 配置 。 

仅仅 做 出 适当 的 配置 还 不 够 ， 对 HBase 的 数据 模式 模型 也 必须 给 予 
足够 重视 。 如 果 数 据 模 式 和 数据 存储 的 检索 方式 不 匹配 ， 再 合适 的 配置 
方案 也 于 事 无 补 。 相 反 ， 如 果 模 式 和 数据 检索 方式 琴瑟 和 和谐 ， 性 能 就 会 
得 到 巨大 的 提升 。 习 惯 了 关系 型 数据 库 思维 的 人 们 往往 不 习惯 HBase 模 
式 建 模 。 使 用 HBase 这 样 的 列 式 数据 库 和 使 用 MySQL 这 样 的 关系 型 数据 
库 相 比 ， 尽 管 有 些 相似 之 处 ， 但 还 是 有 许多 不 同 的 技巧 。 




















如 果 你 需要 上 述 帮 助 ， 这 本 书 就 是 为 你 量 身 定制 的 ， 这 本 书 还 可 以 
在 其 他 方面 提供 帮助 ， 如 如 何 往 HBase 核心 里 增加 自 定义 功能 ， 什 么 是 
民 好 的 HBase 应 用 系统 设计 ， 等 等 。Amandeep 和 Nick 使 用 了 适当 的 、 
饱含 实践 经 验 的 文字 ， 浅 显 易 收 地 告诉 你 怎样 使 用 HBase。 这 本 书 可 以 
帮助 那些 基于 HBase 部 署 应 用 系统 的 人 们 。 

Nick 和 Amandeep 是 有 真 材 实 料 的 老师 ， 他 们 都 是 长 期 的 HBase 实 践 
者 。 回 忆 往 昔 ， 多 年 前 Amandeep 来 到 旧金山 加 入 我 们 早期 的 周末 黑客 
马拉松 的 时 候 ， 我 们 挤 在 他 的 ThinkPad 旧 笔记 本 电脑 旁边 ， 在 HBase 项 
目 早期 版 本 上 努力 调试 数据 的 场景 。 

他 在 项 目 邮件 列表 上 帮助 了 很 多 人 ， 对 于 HBase 社区 贡献 恨 多 。 不 
久之 后 ，Nick 也 出 现 了 ， 不 时 地 在 HBase 项 目 中 汤 露 头角， 添砖加瓦 。 
他 们 拿 出 时 间 研 究 和 编 算 自 己 的 经 验 ， 把 这 本 书 贡献 给 了 HBase 社 区 。 

你 可 能 打算 阅读 这 本 书 ， 也 可 能 打算 下 载 使 用 HBase， 但 是 请 不 要 
错过 HBase 最 宝 喧 的 东西 一 一 开发 者 社区 。 围 绕 HBase 项 目 ， 一 个 多 功 
能 的 、 热 情 的 开发 者 社区 已 经 成 长 起 来 了 了， 并 且 正 在 推动 项 目 全 力 发 
展 。 像 Amandeep、Nick 和 我 自己 这 样 的 成 员 ， 最 让 我 们 自 罕 的 就 是 我 
们 的 社区 。 尽 管 Facebook、 华 为 、Cloudera 和 Salesforce 等 大 公司 对 于 
HBase 的 发 展 贡 献 也 很 大 ， 但 是 社区 的 形成 不 是 因为 公司 ， 而 是 因为 我 
们 这 些 参与 的 个 体 。 请 考虑 加 入 过来 吧 ， 我 们 欢迎 你 。 








Michael Stack 
Apache HBase 项 目 管理 委员 会 主席 





A EN 


HBase 社 区 的 ] 一 不 


在 讨论 现状 之 前 ， 请 允许 我 把 时 间 倒 退 几 年 ， 看 看 HBase 是 怎么 开 
始 的 。 

2007 年 ， 我 需要 一 个 大 规模 的 、 可 扩展 的 数据 存储 方案 ， 但 是 几乎 
没有 预算 ， 所 以 也 就 没有 多 少 选 择 。 要 么 使 用 免费 开源 数据 库 ， 如 
MySQL 或 者 PostgreSQL; 要 么 使 用 像 Berkeley DB 这 样 的 纯 键 值 数 据 
库 ; 要 么 选择 自己 开发 ， 这 可 是 一 个 新 领域 ， 至 少 在 当时 你 需要 足够 勇 
敢 才 会 这 么 答 试 。 

当时 已 有 的 解决 方案 或 许 也 可 以 用 ， 但 是 对 它们 最 大 的 顾虑 是 可 扩 
展 性 。 在 这 一 点 上 当时 的 系统 做 得 并 不 好 ， 往 往 需要 事后 补救 。 我 需要 
存储 数 十 亿 个 文档 ， 维 护 一 个 关于 它们 的 搜索 索引 ， 要 求 文 持 数据 随机 
更 新 并 且 同 时 快速 更 新 索引 。 这 些 需 求 让 我 选择 了 第 三 种 方式 : Hadoop 
和 HBase。 

这 两 个 产品 有 着 强大 的 血统 ， 它 们 都 源 自 Google 公司 ， 这 是 一 个 
每 当 提 到 可 扩展 系统 就 能 想到 的 群英 汇集 的 殿 尝 。 我 相信 ， 如 果 这 些 系 
统 可 以 服务 于 世界 上 最 大 的 用 户 ， 它 们 一 定 是 牢固 可 靠 的 。 因 此 ， 我 选 
择 使 用 HBase (还 有 Lucene) 构建 我 的 系统 。 

在 2007 年 ， 这 种 选择 不 多 ， 很 容易 决定 。 但 是 再 往 后 几 年 ， 这 个 
新 兴 领 域 逐 渐 成 长 壮大 ， 我 们 看 到 了 许多 有 竞争 力 的 和 补充 的 解决 方 
案 。 于 是 大 家 使 用 专用 术语 NoSQL 来 把 这 些 分 布 式 数据 库 归 为 一 类 。 这 
个 专用 术语 一 直 伴 随 着 长 期 的 、 有 时 也 显得 没有 意义 的 争论 ; 对 我 来 
说 ， 有 意义 的 是 可 用 的 选择 越 来 越 多 了 。 


























定位 各 种 新 生 数 据 库 系 统 的 基础 是 比较 它们 的 功能 特性 : 强 一 致 性 
和 最 终 一 致 性 《两 者 用 来 满足 不 同 的 特定 需求 ) 。 人 们 再 一 次 以 这 种 方 
式 衡量 HBase 和 它 的 同类 产品 ， 例 如 ， 使 用 Eric Brewer 的 CAP 定理 来 衡 
量 。 随 之 而 来 的 是 一 场 激 烈 的 讨论 ， 什 么 是 最 重要 的 : 是 强 一 致 性 ”还 
是 即使 在 灾难 情况 下 部 分 系统 人 硬件 故障 时 还 可 以 保证 数据 服务 ? 

和 前 面 一 样 ， 对 我 而 言 ， 这 是 个 选择 的 问题 。 我 学 会 的 是 ， 你 打算 
使 用 一 个 系统 就 要 先 全 面 了 解 它 。 今 天 我 们 选择 余地 很 大 ， 解 决 方案 也 
有 重 登 和 相似 之 处 ; 我 的 选择 并 不 意味 着 其 他 解决 方案 等 而 下 之 。 你 应 
该 成 为 一 个 能 够 区 分 它们 的 专家 ， 然 后 根据 你 手边 的 问题 做 出 最 佳 选 
择 。 

我 们 束 是 这 样 选择 了 HBase， 一 直 使 用 到 今天 。 坚 无 疑问 ， 大 名 易 
易 的 大 型 网 络 公司 用 户 提升 了 HBase 的 声誉 ， 证 实 了 HBase 可 以 胜 做 
特定 的 使 用 场景 。 这 些 公 司 都 有 一 个 重要 的 优势 : 它们 雇佣 了 非常 有 经 
验 的 工程 师 。 但 是 ， 许 多 小 型 公司 使 用 HBase 和 基于 它 的 应 用 系统 并 不 
顺利 。 我 们 需要 有 人 用 一 种 简单 易 懂 的 方式 指导 大 家 如 何在 HBase 上 和 轻 
松 搭建 验证 过 的 、 成 熟 的 使 用 场景 。 

应 该 怎样 设计 模式 (schema) 来 存储 复杂 的 数据 以 保证 读 写 性 能 的 
均衡 ?应 该 怎样 规划 数据 的 访问 方式 来 保证 最 大 限度 地 发 挥 HBase 集群 
的 威力 ?如 果 你 订阅 了 公共 邮件 列表 ， 类 似 问题 还 有 很 多 。Amandeep 
和 Nick 会 在 这 些 地 方 帮助 大 家 。 他 们 在 各 种 用 户 场 景 下 使 用 HBase 的 丰 
富 的 实战 经 验 可 以 帮 你 了 解 使 用 正确 的 数据 模式 和 访问 方式 的 复杂 性 ， 
帮 你 成 功 构建 下 一 个 项 目 。 

HBase 会 有 什么 样 的 未 来 呢 ? 我 相信 前程 远大 ! 同样 的 技术 仍然 在 
Google 公司 承载 着 数量 众多 的 产品 和 系统 ， 反 对 的 观点 被 证 实 是 错误 
的 ，HBase 社 区 也 成 长 为 我 参加 过 的 最 健康 的 社区 之 一 。 我 要 表达 我 的 
感谢 ， 给 那些 推举 我 为 Fellow Member 的 人 ， 给 那些 每 天 提交 代码 和 补 
丁 使 HBase 变 得 更 好 的 人 ， 给 那些 主动 在 HBase 上 投入 全 职工 程 师 的 




















公司 ， 也 要 给 HBase 项 目 管理 委员 会 。 这 绝对 是 一 个 我 所 知道 的 最 真诚 
的 群体 。 

最 后 ， 非 常 感谢 Nick 和 Amandeep 写 了 这 本 书 。 这 本 书 有 助 于 实现 
HBase 的 价值 ， 有 助 于 传播 开源 理念 。 在 他 们 开始 写 这 本 书 之 前 我 们 束 
认识 了 ， 他 们 有 些 顾 感 。 当 时 我 文 持 说 : 这 是 你 们 能 够 为 HBase 和 社区 
所 做 的 最 棒 的 事情 。 作 为 个 人 ， 能 够 成 为 社区 的 一 佳 子 我 感到 谦 持 和 自 
蚂 。 

Lars George 


HBase Committer 


2008 年 秋季 我 开始 和 HBase 结缘 ， 当 时 和 它 还 是 一 个 新 生 项 目 ， 一 年 
前 刚刚 发 布 。 早 期 版 本 出 来 时 ，HBase 表 现 很 不 错 ， 但 是 也 不 是 没有 令 
人 惩 众 的 缺陷 。HBase 项 目 当时 有 近 10 个 软件 Commiffer， 作 为 一 个 
Apache 子 项 目 还 算 不 错 。 接 下 来 是 NoSQL 宣 传 的 高 潮 。 当 时 专 有 名 词 
NoSQL 还 没有 出 现 ， 但 是 随后 的 一 年 这 个 术语 变 成 了 通俗 用 语 。 没 有 
人 能 够 说 清楚 为 什么 NoSQL 重要 ， 只 知道 它 就 是 重要 ， 反 正 数据 领域 
开源 社区 的 每 个 人 都 对 这 个 概念 很 着 迷 。 社 区 中 有 两 种 声音 ， 有 人 批评 
关系 型 数据 库 ， 批 评 它 电 不 可 及 的 严谨 ， 有 人 嘲笑 新 技术 ， 嘲 笑 它 不 够 

大 部 分 探索 新 技术 的 人 来 自 于 互联 网 公司 ， 当 时 我 就 在 一 家 致力 于 
社交 媒体 内 容 分 析 的 创业 公司 工作 。 那 时 候 Facebook 从 在 强调 隐私 政 
策 ， 而 Twitter 还 不 够 大 ， 其 著名 的 报错 页 面 “ 失 败 的 馈 鱼 ”(Fail 
Whale) 还 没有 问世 。 当 时 我 们 的 兴趣 点 主要 在 博客 上 。 在 此 前 一 家 公 
司 我 伦 了 3 年 好 时 光 专 注 于 层次 型 数据 库 引 擎 。 我 们 广泛 使 用 了 Berkeley 
DB， 上 所 以 我 熟悉 不 使 用 SQL 引擎 的 数据 技术 。 在 这 家 公司 我 加 入 了 一 
个 小 团队 ， 癸 务 是 构建 一 个 新 型 数据 管理 平台 。 我 们 有 一 个 MS SQL 数 
据 库 ， 已 经 塞 满 了 博客 帖子 和 评论 。 当 我 们 的 日 向 分 析 作 业 耗 时 达到 18 
小 时 时 ， 我 们 都 知道 这 个 系统 时 日 不 多 了 。 

在 收集 了 基本 需求 后 ， 我 们 痢 手 寻找 新 型 数据 技术 。 我 们 的 团队 不 
大 ， 一 边 维 护 现 有 系统 ， 一 边 花 了 数 月 时 间 评 佑 不 同 的 选择 。 我 们 试验 
了 不 同 的 方法 ， 开 杀 喘 感受 了 对 数据 手工 分 区 的 痛苦 。 我 们 研究 了 CAP 














定理 和 最 终 一 致 性 ， 最 后 的 结论 是 妥协 。 尽 管 HBase 有 缺点 ， 我 们 还 是 
决定 选择 它 ， 我 们 认为 开源 技术 的 潜在 好 处 超过 了 它 的 风险 ， 开 且说 服 
人 

我 在 家 里 玩 过 Hadoop， 但 是 仍 没有 写 过 真正 的 MapReduce 作 业 。 我 
昕 说 过 HBase， 但 在 这 佳 新 工作 之 前 也 没有 特别 关注 过 。 随 着 时 间 推 
移 ， 我 们 已 经 开始 行动 。 我 们 申请 了 一 些 空闲 机 器 和 几 个 机 架 ， 然 后 就 
开工 了 。 这 家 公司 是 .NET 的 地 盘 ， 我 们 得 不 到 运 维 文 持 ， 所 以 我 们 学 
着 使 用 bash 和 rsync， 自 己 管理 整个 集群 。 

我 加 入 了 邮件 列表 和 IRC 频 道 ， 开 始 提问 题 。 就 在 那个 时 候 ， 我 认 
识 了 Amandeep。 他 在 忙于 人 磺 士 论文 ， 壬 试 把 HBase 运 行 到 Hadoop 以 外 的 
系统 上 。 不 久 他 完成 学 业 ， 加 入 Amazon， 搬 到 西雅图 。 在 这 个 充满 微 
软 痕迹 的 城市 中 ， 我 们 两 个 是 少 有 的 HBase 粉 丝 。 随 后 两 年 很 快 过 去 


2010 年 秋季 ， 第 一 次 提出 让 我 们 写 《HBase 实 战 》。 在 我 们 看 来 ， 
这 很 搞笑 。 为 什么 是 我 们 这 两 个 社区 会 员 来 写 这 本 书 ? 内 部 来 看 ， 这 有 是 
一 块 难 哨 的 骨头 。《HBase 权威 指南 》 正 在 韦 展 中 ， 我 们 认识 它 的 作 
者 ， 我 们 深 知 在 他 面前 的 挑战 。 外 部 来 看 ， 我 认为 HBase 只 是 一 个 “简单 
的 键 值 数据 库 ?。API 只 有 5 个 基本 概念 ， 都 不 复杂 。 我 们 不 想 再 写 一 本 
类 似 于 《HBase 权 威 指南 》 那 样 介 绍 内 部 机 制 的 书 ， 我 也 不 相信 应 用 开 
发 人 员 仍 这 类 书 中 可 以 得 到 足够 有 价值 的 东西 。 

我 们 开始 做 头脑 风暴 ， 事 情 很 快 清楚 了， 我 是 错 的 。 不 仅 可 以 找到 
足够 的 资料 帮助 用 户 ， 而 且 社 区 会 员 的 角色 使 得 我 们 成 为 写 这 本 书 的 最 
佳人 选 。 我 们 开始 分 门 别 类 整理 多 年 来 我 们 使 用 这 门 搁 术 累积 下 来 的 知 
识 。 这 本 书 是 我 们 8 年 来 使 用 HBase 实 践 经验 的 升华 。 它 面 铅 HBase 的 全 
新 用 户 ， 可 以 指导 大 家 跃 过 我 们 自己 当年 遇 到 过 的 障碍 。 我 们 尽 可 能 
地 收集 和 编 自 了 散布 在 社区 里 的 内 部 知识 。 对 于 模糊 的 建议 我 们 尽 可 能 
给 出 清晰 的 指导 。 我 们 希望 你 能 发 现 这 本 书 是 一 个 完整 的 手册 ， 可 以 帮 





























助 你 顺利 开始 使 用 HBase， 而 不 只 是 一 个 简单 的 问答 列表 。 

HBase 现 在 逐渐 稳定 了 。 我 们 开始 时 过 到 过 的 大 部 分 缺陷 已 经 被 解 
决 、 打 上 补丁 、 或 者 完全 修改 了 架构 。HBase 正 在 接近 1.0 版 本 ， 在 这 个 
里 程 碑 时 刻 我 们 很 自豪 自己 是 社区 的 一 部 分 。 我 们 很 自豪 把 这 侍 书 稿 提 
区 给 社区 ， 和 希望 它 可 以 喜 舞 和 帮助 下 一 代 HBase 用 户 。HBase 最 强大 之 
处 就 是 兴旺 的 社区 ， 我 们 希望 你 加 入 到 社区 来 ， 帮 助 社 区 在 数据 系统 新 
时 代 继 续 创 新 。 











Nick Dimiduk 

当 你 看 到 这 里 的 时 候 ， 你 大 概 很 想 知道 我 是 怎样 迎 入 HBase 世 界 
的 。 首 先 我 要 感谢 你 选择 这 本 书 来 学 习 HBase， 学 习 怎 样 使 用 HBase 作 
为 存储 系统 来 搭建 应 用 系统 。 和 硕 望 你 能 找到 有 用 的 东西 和 实用 技巧 ， 以 
便 更 好 地 搭建 应 用 系统 ， 祝 你 成 功 。 

我 曾经 在 加 州 大 学 圣 倪 鲁 北 分校 囊 行 本 科学 习 ， 当 时 我 在 思科 公司 
找 了 一 佳 兼 职 研 究 员 的 工作 ， 专 注 于 分 布 式 系统 。 我 所 工作 的 团队 当时 
在 搭建 一 个 数据 集成 框架 ， 这 个 框架 可 以 对 数 百 种 数据 存储 (包括 但 不 
限于 大 型 关系 型 数据 库 管理 系统 ) 上 的 数据 过 行 集成 、 索 引 和 研究 。 我 
们 开始 寻找 可 以 解决 问题 的 系统 和 解决 方案 。 我 们 评估 了 许多 系统 ， 仍 
对 象 数据 库 到 图 形 数据 库 ， 最 后 我 们 考虑 基于 Berkeley DB 构建 一 个 定 
制 的 分 布 式 数据 存储 。 显 而 易 见 的 一 个 关键 需求 是 可 扩展 性 ， 但 是 我 们 
开 不 想 仍 头 开始 构建 一 个 分 布 式 系统 。 想 想 看 ， 如 果 你 为 某 个 机 构 工 
作 ， 打 算 构建 一 个 定制 的 分 布 式 数据 库 或 者 文件 系统 ， 最 好 先 看 看 有 没 
有 现成 的 解决 方案 可 以 解决 你 的 一 部 分 问题 。 

基于 这 个 原则 ， 我 们 认为 仍 头 开始 搭建 新 系统 是 不 明智 的 ， 我 们 和 希 
望 使 用 已 有 的 技术 。 随 后 我 们 开始 使 用 Hadoop 系 列 产 品 ， 尝 试 了 很 多 组 
件 ， 在 HBase 上 为 数据 集成 系统 搭建 了 概念 验证 原型 系统 。 系 统 工作 展 
好 ， 扩 展 性 也 不 错 。HBase 很 适合 解决 这 类 问题 ， 但 是 当时 它们 都 是 新 
生 项 目 ， 能 够 保证 我 们 成 功 的 一 个 重要 因素 是 它们 的 社区 。HBase 有 着 




















一 个 最 热情 的 、 最 有 活力 的 开源 社区 ; 当时 社区 规模 要 小 得 多 ， 但 是 迄 
今 为 止 其 核心 理念 一 直 没 有 变化 。 

后 来 数据 集成 项 目 成 了 我 的 研究 生 论文 。 这 个 项 目 用 HBase 作 为 核 
心 ， 因 此 我 也 越 来 越 深入 地 参与 到 社区 中 。 在 邮件 列表 里 和 IRC 频 道 
里 ， 开 始 我 是 问 别人 问题 ， 后 来 我 也 回答 别人 的 问题 。 在 这 上段 时 间 里 我 
认识 了 Nick 开 了 解 了 他 在 做 什么 。 在 为 这 个 项 目 工作 的 过 程 中 ， 我 对 这 
个 技术 和 开源 社区 的 兴趣 和 热爱 与 日 俱 增 ， 我 希望 一 直 参 与 下 去 。 

完成 研究 生 学 习 后 ， 我 加 入 了 位 于 西雅图 的 Amazon， 开 始 做 后 端 
分 布 式 系统 项 目的 工作 。 我 的 大 部 分 时 间 花 在 Elastic MapReduce 团队 那 
里 ， 我 们 搭建 了 HBase 托管 服务 的 第 一 个 版 本 。Nick 也 生活 在 西雅图 ， 
我 们 经 常见 面 ， 讨 论 工作 中 的 项 目 情况 。2010 年 底 ，Manning 出 版 社 提 
出 写 《HBase 实 战 》 这 本 书 。 开 始 的 时 候 我 们 觉得 这 个 想法 很 搞笑 ， 我 
记得 对 Nick 说 过 : “不 就 是 上 传 、 下 载 和 扫描 吗 ?HBase 的 客户 端 只 做 
这 几 件 事情 。 你 想 写 一 本 介绍 3 个 API 调用 的 书 吗 ? ” 

但 是 深入 思考 之 后 ， 我 们 意识 到 构建 HBase 应 用 系统 很 有 挑战 ， 而 
市 面 上 缺乏 足够 的 资料 可 供 启 蒙 。 这 种 情况 限制 了 HBase 的 发 展 。 我 们 
决定 收集 更 多 如 何 有 效 使 用 HBase 的 资料 ， 来 帮助 大 家 构建 满足 需要 的 
系统 。 我 们 花 了 一 些 时 间 整 理 资 料 ，2011 年 秋季 ， 我 们 开始 了 这 本 书 的 
写作: 

那 段 时 间 ， 我 搬家 到 了 上 旧金山， 加 入 了 Cloudera 公 司 ， 接 触 到 很 多 
搭建 在 Hadoop 和 HBase 上 的 应 用 系统 。 我 尽力 结合 我 所 知道 的 以 及 过 
去 多 年 在 HBase 相关 工作 中 和 研究 生 学 习 中 得 到 的 ， 提 取 精 华 写 到 你 现 
在 读 的 这 本 书 中 。 多 年 来 HBase 走 了 很 长 的 路 ， 许 多 大 公司 使 用 它 作 为 
核心 系统 。 它 比 以 往 更 加 稳定 、 快 速 和 易于 维护 ，1.0 版 本 也 接近 发 布 
J 

我 们 写 这 本 书 的 目的 就 是 希望 学 习 HBase 可 以 更 加 有 章 可 循 ， 更 加 
容易 ， 更 加 有 趣 。 等 你 韦 一 步 了 解 HBase 以 后 ， 我 们 鼓励 你 参与 到 社区 




















中 来 ， 你 可 以 学 到 更 多 在 这 本 书 中 没有 讲 到 的 。 你 可 以 发 表 博 客 ， 页 献 
代码 ， 分 享 经 验 ， 让 我 们 一 起 推动 这 个 伟大 的 项 目 癌 各 种 可 能 的 方 回 走 
得 更 进 。 打 开 书 ， 开 始 阅 读 ， 欢 迎 来 到 HBase 世 界 ! 


Amandeep Khurana 


、 


\ 


编写 这 本 书 时 ， 我 们 一 直 谦 进 地 提醒 自己 : 我 们 站 在 了 巨人 的 局 
上 。 如 果 没 有 10 年 前 Google 发 表 的 那些 论文 ， 就 不 会 有 HBase 和 
Hadoop。 如 果 没 有 那些 受 这 些 论文 启发 并 想 办 法 解决 自己 挑战 的 人 ， 束 
不 会 有 HBase。 无 论 是 过 去 还 是 现在 ， 我 们 要 对 每 一 个 HBase 和 Hadoop 
的 贡献 者 说 : 谢谢 你 。 我 们 尤其 要 感谢 HBase 的 代码 提交 者 。 你 们 往 这 
个 世界 上 最 先 韦 的 数据 技术 项 目 里 不 断 地 投入 时 间 和 精力 。 更 令 人 惊讶 
的 是 ， 你 们 把 努力 的 结果 贡献 给 了 广大 的 社区 。 谢 谢 你 们 。 

没有 整个 HBase 社 区 就 不 可 能 有 这 本 书 。HBase 拥 有 着 NoSQL 领 域 
最 大 的 、 最 活跃 的 、 最 热情 的 用 户 社 区 之 一 。 我 们 还 要 感谢 邮件 列表 中 
每 个 提问 题 的 人 和 耐心 回答 问题 的 人 。 你 们 的 热情 和 回答 问题 的 意愿 从 
一 开始 就 至 励 大 家 参与 过来 。 你 们 所 提 的 问题 和 所 需要 的 帮助 许多 是 我 
们 在 书 中 提炼 和 澄清 的 内 容 的 基础 。 我 们 希望 能 够 扩大 HBase 的 影响 力 
并 且 帮 助 HBase 的 拥护 者 。 

我 们 要 特别 感谢 在 这 个 过 程 中 帮助 我 们 的 许多 HBase 代码 提交 者 和 
社区 会 员 。 特 别 感 谢 Michael Stack、Lars George、Josh Patterson 和 
Andrew Purtell， 感 谢 你 们 的 辟 励 ， 也 感谢 你 们 提示 我 们 这 本 书 给 社区 读 
来 的 价值 。 感 谢 Ian Varley、Jonathan Hsieh 和 Omer Trajman， 感 谢 你 们 
贡献 思路 和 反馈 建议 。Benoit Sigoure 审核 了 OpenTSDB 那 一 章 〈 第 7 
章 ) 和 asynchbase 那 一 节 〈6.5 节 ) ， 谢 谢 你 贡献 的 代码 和 评论 。 感 谢 
Michael 为 本 书 作 序 ， 感 谢 Lars 撰 写 了 “ 致 HBase 社 区 的 一 封 信 ?”。 

我 们 还 要 感谢 我 们 各 上 自 的 公司 Cloudera, Inc. 和 The Climate 








Corporation， 你 们 不 仅 文 持 我 们 ， 而 且 茧 励 我 们 ， 没 有 你 们 不 可 能 完成 
这 本 书 。 

我 们 要 感谢 Manning 出 版 社 的 编辑 Renae Gregoire 和 Susanna 
Kline。 你 们 目睹 了 这 本 书 从 坚 无 头绪 地 开始 到 成 功 地 完成 的 整个 过 
程 。 我 们 认为 你 们 其 他 的 项 目 不 会 像 我 们 这 个 如 此 令 人 兴奋 ! 感谢 我 们 
的 技术 编辑 Mark Henry Ryan 以 及 技术 校对 Jerry Kuch 和 Kristine Kuch。 

下 面 的 人 在 编写 本 书 的 各 个 阶段 阅读 和 审核 了 书稿 ， 感 谢 你 们 提供 
了 富有 洞察 力 的 反馈 意见 : Aaron Colcord、Adam Kawa、Andy Kirsch、 
BobbyAbraham、Bruno Dumon、Charles Pyle、Cristofer Weber、Daniel 
Bretoi、Gianluca Righetto、Ian Varley、John Griffin、Jonathan Miller、 
Keith Kim、 Kenneth DeLong、Lars Francke、Lars Hofhansl、Paul 
Stusiak、 Philipp K. Janert、 Robert J. Berger、 Ryan Cox、Steve 
Loughran、 Suraj Varma、 Trey Spiva 和 Vinod Panicker。 

最 后 也 是 最 重要 的 一 一 没有 家 人 和 朋友 的 认可 我 们 什么 也 做 不 了 ， 
没有 爱 我 们 的 人 的 支持 我 们 完成 不 了 这 本 书 。 谢 谢 你 们 在 整个 过 程 中 的 
支持 和 耐心 。 





二 是 时: 


HBase 建 立 在 Apache Hadoop 和 Apache ZooKeeper 这 些 复 杂 的 分 布 式 
系统 之 上 。 虽 说 你 不 必 成 为 所 有 这 些 技术 的 专家 才 可 以 有 效 使 用 
HBase， 但 是 理解 这 些 基础 层面 的 知识 有 助 于 充分 利用 HBase。 这 些 技 
术 受 了 Google 发 表 的 论文 启发。 这些 技术 是 Google 的 这 些 出 版 物 中 所 描 
述 的 技术 的 开源 实现 。 阅 读 这 些 专 业 论 文 对 于 使 用 HBase 或 其 他 这 些 技 
术 虽 说 不 是 必要 条 件 ， 但 是 当 你 学 习 一 种 技术 ， 了 解 局 发 它们 发 明 的 源 
头 总 是 有 用 的 。 尽 管 本 书 不 要 求 你 熟悉 这 些 技 术 ， 也 不 要 求 你 读 过 相关 
人 

《HBase 实 战 》 定 位 是 HBase 的 用 户 指 南 。 它 不 会 涉足 HBase 内 部 工 
作 机 制 ， 也 不 会 涉足 理解 Hadoop 生 态 系统 所 必需 的 广泛 话题 。《HBase 
实战 》 专 注 于 一 点 : 使 用 HBase。 它 会 指导 你 在 HBase 上 搭建 应 用 系 
统 ， 并 且 在 生产 环境 中 使 用 这 个 应 用 系统 。 同 时 ， 你 会 学 到 一 些 HBase 
实施 细节 。 你 也 会 熟悉 Hadoop 的 其 他 产品 。 你 会 学 习 足 够 的 知识 来 理解 
HBase 的 工作 方式 ， 并 问 一 些 聪明 的 问题 。 本 书 不 会 把 你 培养 成 HBase 
的 Committer〈 代 码 提 区 者 ) ， 但 会 教 你 HBase 的 实战 技巧 。 

路 线 图 

《HBase 实 战 》 分 为 4 个 部 分 。 前 两 个 部 分 介绍 如 何 使 用 HBase。 在 
6 章 的 篇 幅 里 ， 你 会 从 一 个 新 手 成 长 为 可 以 在 HBase 上 熟练 编程 的 人 。 在 
这 个 过 程 中 ， 你 会 学 到 HBase 的 基本 原理 、 模 式 设 计 以 及 如 何 使 用 
HBase 的 高 级 特性 。 最 重要 的 是 ， 你 将 学 会 用 HBase 的 方式 思考 。 第 三 
部 分 有 两 章 ， 介 绍 一 些 应 用 示例 ， 让 你 体会 一 下 实际 应 用 是 什么 样子 。 




















第 四 部 分 指导 你 如 何 把 原型 开发 系统 升级 为 羽 避 丰满 的 生产 系统 。 

第 1 章 总 体 介 绍 Hadoop、HBase 和 NoSQL 的 起 源 。 我 们 将 介绍 HBase 
是 什么 和 不 是 什么 ， 把 HBase 和 其 他 NoSQL 数 据 库 邮 行 对 比 ， 介 绍 一 些 
通用 的 使 用 场景 。 我 们 会 帮 你 判断 对 于 你 的 项 目 和 公司 来 说 HBase 是 否 
是 正确 的 技术 选择 。 第 1 草包 括 简单 安装 HBase 和 开始 存储 一 点 儿 数 据 。 

第 2 章 开始 运行 一 个 示例 应 用 。 通 过 这 个 例子 ， 我 们 探讨 使 用 HBase 
的 基础 知识 。 包 括 创 建 表 、 存 取 数 据 以 及 HBase 的 数据 模型 。 我 们 也 会 
深入 探讨 HBase 的 内 部 工作 机 制 ， 理 解 HBase 如 何 组 织 数据 ， 以 及 在 你 
的 应 用 中 如 何 利用 这 些 知 识 。 

第 3 章 作 为 一 个 分 布 式 系统 重新 介绍 HBase。 本 章 探讨 HBase、 
Hadoop 和 ZooKeeper 之 间 的 关系 。 你 会 学 到 HBase 的 分 布 式 架构 以 及 如 
何 转换 成 一 个 强大 的 分 布 式 数据 系统 。 动 手 练习 示例 中 会 探讨 在 HBase 
上 使 用 Hadoop MapReduce 的 使 用 场景 。 

第 4 章 专 门 针 对 HBase 模 式 设计 。 我 们 用 示例 应 用 来 探讨 这 个 复杂 的 
主题 。 你 会 看 到 表 设 计 决 策 是 如 何 影 响应 用 的 ， 以 及 如 何 避 免 弟 见 错 
误 。 我 们 会 把 一 些 关 系 型 数据 库 知识 映射 到 HBase 世 界 里 。 你 还 会 看 到 
如 何 使 用 服务 器 端 过 滤器 (server-side filter) 来 进一步 完善 模式 设计 。 
这 一 章 也 涵盖 HBase 的 高 级 物理 配置 选项 。 

第 5 章 介绍 协 处 理 器 (coprocessor) ， 这 是 一 种 把 计算 推 癌 HBase 集 
群 的 计算 机 制 。 你 会 用 两 种 不 同 的 方式 扩展 示例 应 用 ， 在 集群 上 构建 应 
用 的 新 特性 。 

第 6 章 全 面 、 快 速 地 介绍 可 选 的 HBase 客 户 端 。HBase 是 用 Java 编 写 
的 ， 但 这 并 不 意味 着 你 的 应 用 必须 是 用 Java 编 号 的 。 你 可 以 用 各 种 编程 
语言 和 不 同 的 网 络 协议 来 访问 示例 应 用 。 

第 三 部 分 从 第 7 章 开 始 ， 将 开始 构建 一 个 真实 的 、 可 以 投入 生产 环 
卉 的 应 用 系统 。 你 会 了 解 这 个 应 用 系统 打算 解决 的 问题 和 特别 的 挑战 。 
然后 我 们 深入 到 实现 过 程 中 ， 在 技术 细 市 上 做 全 面 考 虑 。 也 就 是 说 ， 从 











前 端 到 后 并 全 面 探讨 如 何在 HBase 上 搭建 应 用 系统 。 
第 8 章 介 绍 如 何在 一 个 新 领域 里 使 用 HBase。 我 们 将 带 你 快速 迎 入 这 
个 新 领域 一 一 GIS， 然 后 教 你 如 何 基于 HBase 使 用 一 种 可 扩展 的 方式 来 








计 以 及 最 大 化 利用 扫描 (scan〉 和 过 滤器 (filter) 特性 。 之 前 可 以 没有 
GIS 经 验 ， 但 是 要 准备 好 充分 运用 前 面 章 市 学 习 的 知识 。 

在 第 四 部 分 ， 第 9 章 将 部 署 你 的 HBase 集群 。 从 头 开 始 ， 我 们 教 你 
如 何 肴 手 迎 行 HBase 部 普 。 这 一 章 将 探讨 硬件 的 种 类 、 数 量 和 如 何 分 配 
硬件 。 考 虑 云 服务 吗 ? 我 们 也 会 谈 到 。 人 硬件 确定 以 后 ， 我 们 为 你 介绍 如 
何 为 一 个 基本 部 署 配 置 集群 ， 如 何 让 集群 正常 启动 运行 。 

第 10 章 将 把 你 的 部 署 升 级 到 生产 水 平 。 我 们 教 你 通过 参数 和 监控 工 
具 来 监控 集群 。 你 会 了 解 到 如 何 根据 你 的 应 用 负载 来 岂 一 步 优 化 集群 的 
性 能 。 我 们 教 你 如 何 管理 集群 ， 如 何 保持 集群 健康 运行 ， 有 问题 时 如 何 
诊断 和 处 理 ， 有 需要 时 如 何 升级 ， 等 等 。 你 将 学 习 使 用 附 帝 的 工具 来 管 
理 数 据 的 备份 和 恢复 ， 以 及 如 何 配 置 多 集群 则 的 复制 工作 。 

目标 读者 

本 书 是 一 本 数据 库 的 用 户 实践 手册 。 因 此 ， 它 的 主要 受众 群体 是 希 
望 快速 掌握 HBase 的 应 用 开发 人 员 和 技术 架构 师 。 本 书 实践 多 于 理论 ， 
使 用 技巧 多 于 原理 研究 。 本 书 的 用 途 是 开发 人 员 指 南 ， 而 不 是 学 生 教科 
书 。 本 书 也 会 介绍 部 车 和 运 维 的 基本 知识 ， 所 以 对 于 运 维 工程 师 来 说 也 
能 起 到 一 定 的 帮助 。( 坦 日 说 ， 面 同 运 维和 人 员 的 HBase 方 面 的 书 还 没有 
编写 。) 

HBase 是 用 Java 编 写 的 ， 运 行 在 JVM 上 面 。 我 们 希望 你 熟悉 类 似 于 
类 文件 和 JAR 这 样 的 Java 编 程 语言 和 JVM 概 念 。 我 们 也 假定 你 基本 掌握 
一 些 JVM 工 具 ， 特 别 是 Maven， 因 为 书 中 的 源 代码 使 用 这 个 软件 管理 。 
Hadoop 和 HBase 运 行 在 Linux 和 UNIX 系 统 上 ， 因 此 需要 你 掌握 UNIX 的 
基本 知识 。HBase 不 文 持 Windows 操 作 系 统 ， 本 书 也 不 文 持 。Hadoop 方 





























面 的 经 验 会 有 帮助 ， 尽 管 不 是 必需 的 。 在 这 个 领域 ， 关 系 型 数据 库 无 处 
不 在 ， 所 以 我 们 假定 你 理解 相关 技术 的 概念 。 

HBase 是 一 种 分 布 式 系 统 ， 使 用 了 分 布 式 、 并 行 计算 技术 。 硕 望 你 
理解 并 行 编程 的 基本 概念 ， 如 多 线程 和 并 发 迎 程 等 。 我 们 不 要 求 你 知道 
如 何 编写 并 行 计 算 程 序 ， 但 是 你 应 该 熟悉 并 发 执行 线程 的 思路 。 本 书 重 
心 不 在 算法 理论 ， 但 是 任何 操作 TB 或 PB 级 数据 的 人 都 应 该 对 渐 迪 计算 
的 时 间 复 杂 度 有 概念 。 在 模式 设计 的 那 一 章 中 大 0 标记 .也 会 频频 出 现 。 

代码 约定 

和 我 们 编写 一 本 实战 书籍 的 目标 相 一 致 ， 你 会 发 现 我 们 目 由 混合 文 
字 和 代码 。 有 时 段落 间 只 有 两 行 代码 。 我 们 的 指导 思路 是 只 在 有 必要 时 
才 展 示 给 你 如 何 使 用 API， 然 后 提供 额外 的 细节 。 这 些 代码 片段 将 随 着 
章节 内 容 发 展 和 演变 。 我 们 总 是 在 小 结 一 章 时 ， 给 出 代码 的 完整 列表 ， 
提供 充分 的 上 下 文 背 景 。 我 们 偶尔 使 用 类 Python 风格 的 伪 代 码 来 帮助 
解释 。 这 主要 是 在 Java 代 码 中 使 用 了 太 多 样板 代码 或 者 其 他 语言 噪音 以 
致 于 干扰 了 预期 关键 点 的 场合 。 真 正 的 Java 实 现 一 般 紧 跟 在 伪 代 码 后 面 
提供 。 

因为 这 是 一 本 动手 的 书 ， 我 们 还 使 用 了 许多 命令 来 演示 系统 的 一 些 
方面 。 这 些 命令 包括 你 在 终端 输入 的 东西 和 你 期 望 从 系统 得 到 的 输出 。 
软件 系统 会 随 痢 时 间 而 改变 ， 所 以 完全 有 可 能 在 我 们 打印 命令 输出 的 时 
候 ， 输 出 的 内 容 有 些 变化 。 不 过 ， 这 应 该 足以 引导 你 判断 系统 预期 的 表 
现 。 

在 命令 和 源 代码 部 分 ， 我 们 广泛 使 用 了 资 明 文字 和 注释 来 引起 你 对 
重要 内 容 的 注意 。 一 些 命 令 笨 出 可 能 比较 密集 ， 尤 其 是 使 用 HBase 
Shell 时 ; 使 用 说 明文 字 和 注释 做 引导 比较 清楚 。 文 本 中 的 代码 使 用 等 
宽 字 体 。 

代码 下 载 




















我 们 所 有 的 源 代码 ， 无 论 是 小 的 脚本 还 是 整个 应 用 程序 ， 都 可 以 下 
载 并 且 开 源 。 我 们 已 经 把 它们 在 Apache License Version 2.0 下 发 布 ， 与 
HBase 一 样 的 授权 方式 。 你 可 以 在 GitHub 专 门 为 本 书 建立 的 网 站 
www.github.com/HBaseinaction 上 找到 源 代码 。 在 那里 每 个 项 目 都 是 完整 
的 应 用 程序 。 你 也 可 以 从 出 版 商 的 网 站 
www.manning.com/HBaseinaction 上 下 载 代码 。 

遵循 开源 的 精神 ， 我 们 希望 我 们 的 示例 代码 在 你 的 应 用 中 有 用 。 我 
们 鼓励 你 人 使用、 修改、 发 展 并 与 别人 分 享 它 们 。 如 果 你 发 现 错误 ， 请 让 
我 们 知道 ， 或 者 是 提交 问题 ， 或 者 更 好 是 修正 问题 。 开 源 社区 常 说 : 欢 
迎 补 丁 。 














第 一 部 分 HBase 基 础 


本 书 前 三 章 介 绍 HBase 的 基本 原理 。 第 1 章 大 体 上 回顾 一 下 数据 库 技 
术 的 演变 ， 并 介绍 HBase 出 现 的 特定 背景 。 

第 2 章 通 过 建立 一 个 应 用 示例 一 一 TwitBase 来 讲授 HBase 的 基础 知 
识 。 通 过 这 个 示例 ， 你 可 以 学 习 如 何 访 问 HBase 以 及 如 何 设计 HBase 的 
模式 〈schema) ， 你 会 简单 地 了 解 到 在 应 用 系统 中 如 何 有 效 使 用 
HBase。 

HBase 是 一 种 分 布 式 系统 ， 我 们 在 第 3 章 会 探讨 分 布 式 架构 。 你 将 学 
习 到 HBase 如 何在 集群 中 管理 你 的 数据 以 及 如 何 使 用 MapReduce 访问 
HBase。 到 第 一 部 分 结束 ， 你 就 能 掌握 搭建 HBase 应 用 系统 所 需 的 基本 
知识 了 。 








第 1 章 HBase 介绍 


本 章 涵 盖 的 内 容 

图 Hadoop、HBase 和 NoSQL 的 起 源 

四 HBase 的 常见 使 用 场景 

四 HBase 的 基本 安装 

四 使 用 HBase 存储 和 查询 数据 

HBase 是 一 种 数据 库 : Hadoop 数据 库 。 它 经 常 被 描述 为 一 种 稀 下 C 
的 、 分 布 式 的 、 持 久 化 的 、 多 维 有 序 映 射 ， 它 基于 行 键 (rowkey) 、 列 
键 (column key) 和 时 间 戳 (timestamp) 建立 索引 。 人 们 会 说 它 是 一 种 
键 值 (key value) 存储 、 面 同 列 族 的 数据 库 ， 有 时 也 是 一 种 存储 多 时 间 
改版 本 映射 的 数据 库 。 所 有 这 些 描述 都 是 正确 的 。 但 是 从 根本 上 讲 ， 它 
是 一 个 可 以 随机 访问 的 存储 和 检索 数据 的 平台 ， 也 就 是 说 ， 你 可 以 按照 
需要 写 入 数据 ， 然 后 再 按照 需要 读 取 数据 。HBase 可 以 自如 地 存储 结构 
化 和 半 结 构 化 的 数据 ， 所 以 你 可 以 录入 微 博 、 解 析 好 的 日 志文 件 或 者 全 
部 产品 目录 及 其 用 户 评价 。 它 也 可 以 存储 非 结构 化 数据 ， 只 要 不 是 特别 
大 。 它 不 介意 数据 类 型 ， 人 允许 动态 的 、 灵 活 的 数据 模型 ， 并 不 限制 存储 
的 数据 的 种 类 。 

HBase 不 同 于 你 可 能 已 经 习惯 的 关系 型 数据 库 。 它 不 用 SQL 语言 ， 
也 不 强调 数据 之 间 的 关系 。HBase 不 允许 跨行 的 事务 ， 你 可 以 在 一 行 的 
某 一 列 存储 一 个 整数 而 在 另 一 行 的 同一 列 存储 字符 串 。 

HBase 被 设计 成 在 一 个 服务 器 集群 上 运行 ， 而 不 是 单 台 服 务 器 。 集 
群 可 以 由 普通 硬件 构建 ; 当 把 更 多 机 器 加 入 集群 时 ，HBase 可 以 相应 地 
横 同 扩 展 。 集 群 中 的 每 个 节点 提供 一 部 分 存储 空间 、 一 部 分 缓存 和 一 部 
分 计算 能 力 ， 因 此 HBase 难 以 想象 地 灵活 和 和 宽容。 因为 没有 独一无二 的 

















节点 ， 所 以 某 一 台 机 器 坏 了 ， 只 需 简 单 地 用 另 一 侣 机 器 蔡 换 即 可 。 这 和 意 
味 着 一 种 强大 的 、 可 扩展 的 使 用 数据 的 方式 ， 到 现在 为 止 ， 一 直 没 有 官 
方 数据 说 明 它 的 扩展 上 限 。 

加 入 社区 

遗憾 的 是 ， 在 生产 环境 中 使 用 的 最 大 的 HBase 集群 没有 官方 的 公开 
数据 。 这 种 信息 容易 被 认为 是 商业 机 蜜 而 受到 限制 ， 经 常 不 能 分 享 。 眼 
下 ， 你 只 能 在 用 户 群 组 、 聚 会 和 会 议 上 通过 出 版 物 的 脚注 、 幻 灯 片 内 容 
或 者 是 友好 的 非 正式 的 八卦 里 满足 一 下 好 奇 心 了 。 

那么 加 入 社区 吧 ! 这 是 正确 的 选择 ， 我 们 也 是 这 样 参与 进来 的 。 
HBase 是 一 个 非常 专业 领域 里 的 开源 项 目 。 尽 管 HBase 面 对 世界 上 最 大 
几 家 软件 公司 的 竞争 ， 但 是 该 项 目的 财务 状况 恨 好 。 是 社区 创造 了 
HBase， 也 是 社区 使 它 保持 竞 争 能 力 和 创新 能 力 。 另 外 ， 这 是 一 个 智 莫 
的 、 友 好 的 群体 。 最 好 的 开始 方式 是 加 入 邮件 列表 由。 你 可 以 从 JIRA 
网 站 包 得 到 进展 中 的 产品 特性 、 增 强 和 Bug 等 情况 的 信息 。 这 是 个 开源 
的 、 协 作 的 项 目 ， 正 是 像 你 这 样 的 用 户 决 定 着 项 目的 方 回 和 发 展 。 

走 上 前 去 ， 告 诉 他 们 ， 你 来 了 ! 

HBase 是 设计 和 目标 都 与 传统 关系 型 数据 库 不 同 的 系统 ， 使 用 
HBase 构 建 应 用 也 需要 不 同 的 方法 。 本 书 就 是 专门 教 你 怎样 使 用 HBase 
提供 的 特性 来 构建 处 理 海量 数据 的 应 用 的 。 在 开始 学 习 使 用 HBase 之 
前 ， 我 们 先 从 历史 的 角度 来 看 看 HBase 是 怎么 出 现 的 ， 以 及 其 背后 的 驱 
动力 。 然 后 我 们 再 看 看 人 们 使 用 HBase 解 决 问题 的 成 功 案例 。 可 能 你 和 
我 们 一 样 ， 在 深入 研究 之 前 想 试 用 一 下 HBase。 最 后 我 们 会 指导 你 在 自 
己 的 笔记 本 电脑 上 安装 HBase， 存 些 数据 进去 ， 跑 跑 看 看 。 学 习 
HBase， 了 解 大 背景 很 重要 ， 让 我 们 先 从 数据 库 的 演变 历史 开始 。 














1.1 数据 管理 系统 : 速成 


关系 型 数据 库 系统 已 经 存在 几 十 年 了 ， 多 年 来 在 解决 数据 存储 、 服 
务 和 处 理 问 题 方 面 取得 了 巨大 的 成 功 。 一 些 大 型 公司 使 用 关系 型 数据 库 
建立 了 自己 的 系统 ， 比 如 联机 事务 处 理 系 统 和 后 端 分 析 应 用 系统 。 

联机 事务 处 理 〈OLTP) 系统 用 来 实时 记录 交易 信息 。 对 这 类 系统 
的 期 望 是 能 够 快速 返回 啊 应 信息 ， 一 般 是 在 毫秒 级 。 例 如 ， 和 零售 商店 的 
收银 机 在 客户 购买 和 付款 时 需要 实时 记录 相应 信息 。 银 行 拥有 大 型 
OLTP 系 统 ， 用 来 记录 客户 之 间 转 账 之 类 的 交易 信息 ， 但 OLTP 不 仅仅 用 
于 资金 交易 ， 像 LinkedIn 这 样 的 互联 网 公司 也 需要 这 样 的 系统 ， 例 如 ， 
当 用 户 连接 其 他 用 户 时 也 会 用 到 。OLTP 中 的 transaction 指 的 是 数据 库 语 
境 中 的 事务 ， 而 不 是 金融 交易 。 

联机 分 析 处 理 (OLAP)〉 系统 用 来 分 析 人 查询 所 存储 数据 。 在 零售 疝 
那里 ， 这 种 系统 意味 着 按 天 、 按 周 、 按 月 生成 销售 报表 ， 按 产品 和 按 地 
域 从 不 同 角度 分 析 信 息 。OLAP 属 于 商业 智能 的 范畴 ， 数 据 需要 研究 、 
处 理 和 分 析 ， 以 便 收 集 信 息 ， 进 一 步 驱 动 商业 决策 。 对 于 LinkedIn 这 样 
的 公司 ， 连 接 关 系 的 建立 可 以 看 做 事务 ， 分 析 用 户 关 系 图 的 连通 性 以 及 
生成 每 用 户 平 均 联系 数量 这 种 信息 的 报表 就 属于 商业 智能 ， 这 种 处 理 很 
可 能 需要 使 用 OLAP 系 统 。 

无 论 是 开源 的 还 是 商业 版 权 的 关系 型 数据 库 ， 都 已 经 成 功 地 用 于 这 
样 的 使 用 场景 。 这 一 点 通过 Oracle、Vertica、Teradata 等 公司 的 财务 报表 
可 以 清楚 地 看 到 。 微 软 公 司 和 IBM 公 司 也 占有 一 定 份额 。 所 有 这 些 系统 
提供 全 面 的 ACID 饵 保证 。 一 些 系统 扩展 性 要 优 于 其 他 系统 ;一 些 系统 
是 开源 的 ， 还 有 一 些 需 要 文 付 奔 张 的 许可 费用 。 

关系 型 数据 库 的 内 部 设计 由 关系 算法 决定 ， 这 些 系 统 需 要 预先 定义 
一 个 模式 (schema)〉 和 数据 要 遵守 的 类 型 。 随 着 时 间 的 推移 ，SQL 成 了 
与 这 些 系 统 交 互 的 标准 方式 ， 被 广泛 使 用 了 许多 年 。 与 使 用 编程 语言 编 
写 定制 访问 代码 相 比 ，SQL 语 句 更 容易 写 ， 花 费时 间 也 要 少 得 多 。 但 并 














不 是 所 有 情况 下 SQL 部 是 表达 访问 模式 的 最 好 方式 ， 比 如 对 象 -关系 不 
匹配 问题 出 现 的 场合 。 
计算 机 科学 中 的 问题 都 可 以 通过 改变 使 用 方式 来 解决 。 解 决 对 象 - 
关系 不 匹配 问题 也 没有 什么 不 同 ， 最 终 可 以 通过 重建 框架 来 解决 。 
1.1.1 你 好 ， 大 数 气 


让 我 们 认真 看 看 大 数据 这 个 术语 。 说 实话 ， 这 是 一 个 过 分 吹捧 的 术 
语 ， 很 多 商业 化 的 企业 都 会 使 用 它 来 进行 市 场 人 营销。 我们 这 里 尽量 让 讨 
论 接点 儿 地 气 。 

什么 是 大 数据 ? 关于 大 数据 的 定义 有 好 几 种 ， 我 们 认为 没有 哪 一 种 
定义 清晰 地 解释 了 这 个 术语 。 比 如 ， 一 些 定义 说 大 数据 意味 着 数据 足够 
大 ， 为 了 从 这 些 数据 中 获得 一 些 真 知 灼 见 ， 你 不 得 不 研究 它 ; 另 一 些 说 
大 数据 束 是 不 再 适用 于 单 台 机 器 的 数据 。 这 些 定 义 从 他 们 各 自 的 角度 来 
看 是 准确 的 ， 但 并 不 完整 。 我 们 的 观点 是 ， 我 们 需要 用 一 种 根本 上 不 同 
的 方式 来 考虑 数据 ， 从 如 何 驱 动 商 业 价 值 的 角度 来 考虑 数据 ， 这 种 数据 
就 是 大 数据 。 传 统 上 ， 有 联机 事务 处 理 系统 (OLTP〉 和 联机 分 析 人 处 理 
系统 (OLAP) 。 但 是 ， 事 务 处 理 背 后 的 原因 是 什么 ? 是 什么 因素 促成 
业务 发 生 ? 又 是 什么 直接 影响 了 用 户 行为 ?我 们 缺乏 这 样 的 洞察 力 。 以 
早期 的 LinkedIn 为 例 ， 这 种 使 用 数据 的 方式 可 以 理解 为 : 基于 用 户 属 
性 、 用 户 之 间 的 三 度 关 系 、 浏 览 行为 等 寻找 可 能 认识 的 人 ， 然 后 主动 推 
共 并 引导 用 户 联系 他 们 。 有 效 地 寻求 这 种 主动 推荐 行为 显然 需要 大 量 的 
各 种 各 样 数 据 。 

这 种 新 型 数据 使 用 方式 首先 为 Google 和 Amazon 等 互联 网 公司 采 
用 ， 随 后 是 Yahoo! 和 Facebook 跟 进 。 这 些 公司 需要 使 用 不 同 种 类 的 数 
据 ， 吉 构 化 的 或 者 半 结 构 化 的 数据 (如 用 户 访 问 网 站 的 日 
志 ) 。 这 需要 系统 处 理 比 传统 数据 分 析 高 了 几 个 数量 级 的 数据 。 传 统 关 
ne 但 这 样 做 经 









































常 意 味 着 昂贵 的 许可 费用 和 复 森 的 应 用 人 逻辑 。 

但 是 受制 于 关系 型 数据 库 提供 的 数据 模型 ， 对 于 逐渐 出 现 的 、 未 预 
先 定义 模式 (schema) 的 数据 集 ， 关 系 型 数据 库 不 能 很 好 地 工作 。 系 统 
需要 能 够 适应 不 同 种 类 的 数据 格式 和 数据 源 ， 不 需要 预先 严格 定义 模 
式 ， 并 且 能 够 处 理 大 规模 数据 。 系 统 需 求 发 生 了 巨大 变化 ， 互 联网 先驱 
不 得 不 走 回 画图 板 ， 重 新 设计 数据 库 ， 他 们 这 样 做 了 。 大 数据 系统 和 
NoSQL 的 曙光 出 现 了 。“《〈 有 人 可 能 会 说 曙光 出 现 的 时 间 点 还 要 再 晚 一 
些 ， 这 并 不 重要 ， 这 的 确 标志 着 大 家 开始 以 不 同方 式 思 考 数据 了 。 ) 

作为 数据 管理 系统 创新 的 一 部 分 ， 出 现 了 儿 种 新 技术 。 每 种 新 技术 
都 适用 于 不 同 的 使 用 场景 ， 有 着 不 同 的 设计 前 所 和 功能 要 求 ， 也 有 着 不 
同 的 数据 模型 。 

什么 时 候 会 谈 到 HBase 呢 ? 是 什么 促使 了 这 个 系统 的 创立 呢 ? 请 看 
下 一 节 介 绍 。 











1.1.2 数据 创新 


我 们 知道 ， 许 多 杰出 的 互联 网 公司 ， 如 最 突出 的 Google、 
Amazon、Yahoo!、Facebook 等 ， 都 处 于 这 场 数 据 大 爆炸 的 最 前 治 。 一 
些 公司 自己 生成 数据 ， 还 有 一 些 公司 收集 免费 可 获得 的 数据 ;但 是 管理 
这 些 海量 的 不 同 种 类 的 数据 成 为 他 们 推进 业务 发 展 的 关键 。 开 始 阶 段 他 
们 都 采用 了 当时 可 用 的 关系 型 数据 库 技 术 ， 但 是 这 些 技术 的 局 限 性 随后 
成 了 他 们 继续 发 展 和 业务 成 功 的 障碍 。 尺 管 数据 管理 技术 不 是 他 们 业务 
的 核心 ， 但 却 是 推进 业务 的 基础 。 因 此 ， 他 们 大 量 投资 于 新 技术 研究 领 
域 ， 市 来 了 许多 新 数据 技术 的 突破 。 

很 多 公司 都 对 自己 的 研究 成 果 严 格 保密 ， 但 是 Google 选 择 公 开讲 述 
他 的 伟大 技术 。Google 发 表 了 震撼 性 的 Google 文 件 系 统 〈Google File 
System ) 外 和 MapReduce 己 的 论文 。 两 者 结合 展示 了 一 种 全 新 的 存储 
和 处 理 数据 的 方法 。 此 后 不 久 ，Google 发 表 了 BigTable 名 的 论文 ， 对 基 





于 Google 文 件 系 统 的 存储 范 型 提供 了 补充 。 其 他 公司 也 参与 进来 ， 公 和布 
了 各 自 的 成 功 技术 的 想法 和 做 法 。Google 的 论文 提供 了 对 于 如 何 建立 互 
联网 索引 的 深刻 理解 ，Amazon 公 布 了 Dynamo 由， 解密 了 网 上 购物 车 
的 基本 组 件 。 

不 久 ， 所 有 这 些 新 想法 都 被 浓缩 到 开源 实践 中 。 接 下 来 的 几 年 ， 数 
据 管理 领域 出 现 了 形形色色 的 项 目 。 一 些 项 目 关 注 快 速 键 值 〈key- 
value) 存储 ， 而 另外 一 些 关 注 内 置 数据 结构 或 者 基于 文档 的 抽象 化 。 同 
样 多 种 多 样 的 是 这 些 技术 可 以 文 持 的 预期 访问 模式 和 数据 量 。 一 些 项 目 
甚至 放弃 写 数 据 到 人 硬盘， 为 了 性 能 而 牺牲 当前 的 数据 持久 化 。 大 多 数 技 
术 不 能 保证 文 持 受 推 划 的 ACID。 尽管 有 一 些 是 商业 版 权 产品 ， 但 是 绝 
大 多 数 这 类 技术 都 是 开源 项 目 。 因 此 ， 这 些 技术 作为 整体 被 称 为 
NoSQL. 

HBase 适 于 什么 场合 呢 ? HBase 的 确 被 称 为 NoSQL 数 据 库 。 它 提供 
了 键 值 API， 尽 管 有 些 变化 ， 与 其 他 键 值 数 据 库 有 些 不 同 。 它 承诺 强 一 
致 性 ， 所 以 客户 端 能 够 在 写 入 后 马上 看 到 数据 。HBase 运 行 在 多 个 节点 
组 成 的 集群 上 ， 而 不 是 单 台 机 器 。 它 对 客户 端 隐藏 了 这 些 细节 。 你 的 应 
用 代码 不 需要 知道 它 在 访问 1 个 还 是 100 个 节点 ， 对 每 个 人 来 说 事情 变 得 
简单 了 。HBase 被 设计 用 来 处 理 TB 到 PB 级 数据 ， 它 为 这 种 场景 做 了 优 
化 。 它 是 Hadoop 生态 系统 的 一 部 分 ， 依 靠 Hadoop 其 他 组 件 提供 的 重 
要 功能 ， 例 如 数据 元 余 和 批 处 理 。 

了 解 了 大 背景 后 ， 我 们 再 专门 看 看 HBase 的 崛起 。 

1.1.3 HBase 的 凯 起 

假设 你 正 忙于 一 个 开源 项 目 ， 通 过 怜 网 站 和 建立 索引 来 搜索 互联 
网 。 你 有 一 个 实现 方案 ， 这 个 实现 方案 工作 在 一 个 小 集群 上 ， 但 是 需要 
许多 手工 环节 。 再 假设 你 正 忙于 这 个 项 目的 时 候 ，Google 发 表 了 数据 存 
储 和 数据 处 理 框 架 的 论文 。 显 然 ， 你 会 研究 这 些 论文 ， 模 仿 它 们 启动 一 




















个 开源 实现 。 好 吧 ， 你 不 打算 这 么 做 ， 我 们 当然 也 不 会 ， 但 是 Doug 
Cutting 和 Mike Cafarella 就 是 这 么 做 的 。 

Nutch 是 他 们 的 互联 网 搜索 开源 项 目 ， 脱 胎 于 Apache Lucene， 
Hadoop 就 是 在 Nutch 项 目 里 诞生 的 迎 。 从 那 时 起 ，Yahoo! 开 始 关注 
Hadoop， 最 后 Yahoo! 招 募 了 Cnutting 和 其 他 人 为 Yahoo! 全 职工 作 。 随 后 ， 
Hadoop 从 Nutch 中 和 剥离 出 来 ， 最 后 成 为 Apache 的 顶级 项 目 。 随 着 Hadoop 
的 良好 发 展 和 BigTable 论 文 的 发 表 ， 在 Hadoop 上 面 实 现 一 个 BigTable 开 
源 版 本 的 基础 工作 开始 了 。2007 年 ，Cafarella 发 布 了 实验 性 代码 ， 开 源 
的 BigTable。 他 称 其 谓 HBase。 创 业 公司 Powerset 决 定 页 献 出 Jim 
Kellerman 和 Michael Stack 两 位 专家 专职 做 这 个 BigTable 的 模仿 产品 ， 回 


馈 它 所 依赖 的 开源 社区 蚀 。 

HBase 被 证 实 是 一 个 强大 的 工具 ， 尤 其 是 在 已 经 使 用 Hadoop 的 场 
合 。 在 其 “ 砚 儿 期 ”的 时 候 ， 它 就 快速 部 署 到 了 其 他 公司 的 生产 环境 并 得 
到 开发 人 员 的 支持 。 今 天 ，HBase 已 经 是 Apache 顶级 项 目 ， 有 着 众多 
的 开发 人 员 和 兴旺 的 用 户 社区 。 它 成 为 一 个 核心 的 基础 架构 部 件 ， 运 行 
在 世界 上 许多 公司 (如 StumbleUpon、Trend Micro、Facebook、 
Twitter、Salesforce 和 Adobe) 的 大 规模 生产 环境 中 。 

HBase 不 是 数据 管理 问题 的 ; “万 能 药 ”， 针 对 不 同 的 使 用 场景 你 可 
能 需要 考虑 其 他 的 技术 。 人 们 用 
它 构建 了 什么 类 型 的 应 用 系统 。 通 过 这 个 讨论 ， 你 会 知道 哪 种 数据 问题 
适合 使 用 HBase。 








1.2 HBase 场景 和 成 功 案 伤 








有 时 候 了 解 软 件 产 品 的 最 好 方法 是 看 看 它 是 怎么 用 的 。 它 可 以 解决 
什么 问题 和 这 些 解决 方案 如 何 适用 于 大 型 应 用 架构 ， 这 些 能 够 告诉 你 很 
多 。 因 为 HBase 有 许多 公开 的 产品 部 团 采 例 ， 我 们 正好 可 以 这 么 做 。 本 


节 将 详细 介绍 一 些 成 功 使 用 HBase 的 使 用 场景 。 
注意 不 要 自我 限制 ， 认 为 HBase 只 能 在 这 些 使 用 场景 下 使 用 。 它 
是 一 个 很 新 的 技术 ， 根 据 使 用 场景 进行 的 创新 正 推动 着 该 系统 的 发 展 。 
如 果 你 有 新 想法 ， 认 为 HBase 提 供 的 功能 会 让 你 受益 ， 那 就 试 试 吧 。 社 
区 很 乐于 帮助 你 ， 也 会 从 你 的 经 验 中 学 习 。 这 正 是 开源 软件 精神 。 
HBase 模 仿 了 Google 的 BigTable， 让 我 们 先 从 典型 的 BigTable 问 题 开 
始 : 存储 互联 网 。 





问题 : BigTable 发 明 几 


搜索 是 一 种 定位 你 所 关心 信息 的 行为 。 例 如 ， 搜 索 一 本 书 的 页 人 码 ， 
其 中 含有 你 想 读 的 主题 ， 或 者 搜索 网 页 ， 其 中 含有 你 想 找 的 信息 。 搜 索 
含有 特定 词语 的 文档 ， 需 要 查找 索引 ， 该 索引 提供 了 特定 词语 和 包含 该 
词语 的 所 有 文档 的 映射 。 为 了 能 够 搜索 ， 上 自 先 必须 建 并 索引 。Google 和 
其 他 搜索 引擎 正 是 这 么 做 的 。 它 们 的 文档 库 是 整个 互联 网 ， 搜 索 的 特定 
词语 就 是 你 在 搜索 框 里 敲 入 的 任何 东西 。 

BigTable 和 模仿 出 来 的 HBase， 为 这 种 文档 库 提供 存储 ，BigTable 提 
供 行 级 访问 ， 所 以 仆 虫 可 以 插入 和 更 新 单个 文档 。 搜 索索 引 可 以 基于 
BigTable 通 过 MapReduce 计 算 高 效 生成 。 如 果 结 果 是 单个 文档 ， 可 以 直 
接 从 BigTable 取出 。 文 持 各 种 访问 模式 是 影响 BigTable 设 计 的 关键 因 
素 。 图 1-1 显 示 了 互联 网 搜索 应 用 中 BigTable 的 关键 角色 。 


















BigTable 的 
Web 搜 索 


C) MapReduce 
建立 互联 网 索引 


巴 爬 虫 持 续 不 断 地 抓 取 新 页 面 ， 这 些 
页 面 每 页 一 行 地 存储 到 BigTable 里 。 
@MapReduce 计 算 作 业 运 行 在 整 张 表 上 ， 
生成 索引 ， 为 网 络 搜索 应 用 做 准备 。 


搜索 互联 网 
图 用 户 发 起 网 络 搜索 请 求 。 用 户 
@ 网 络 搜索 应 用 查询 建立 好 的 索引 ， 直 接 从 
BigTable 得 到 匹配 的 文档 。 
@ 搜 索 结果 提交 给 用 户 。 
图 1-1 使 用 BigTable 提供 网 络 搜索 结果 ， 非 常 简 单 。 疏 虫 收集 网 
页 ， 存 储 到 BigTable 里 ，MapReduce 计 算 作 业 扫 描 全 表 生 成 搜索 索引 ; 
从 Bigtable 中 查询 搜索 结果 ， 展 示 给 用 户 
注意 为 简洁 起 见 ， 这 里 不 做 BigTable 原 作者 判定 。 我 们 强烈 推荐 关 
于 Google File System、MapReduce 和 BigTable 三 大 论文 ， 如 果 你 对 这 
些 技术 感到 好 奇 ， 这 是 必 读 读物 。 你 不 会 失望 的 。 
讲 完 典 型 HBase 使 用 场景 以 后 ， 我 们 来 看 看 其 他 使 用 HBase 的 地 
方 。 愿 意 使 用 HBase 的 用 户 数 量 在 过 去 几 年 里 迅猛 增长 。 部 分 原因 在 于 
HBase 产 品 变 得 更 加 可 笔 且 性 能 变 得 更 好 ， 更 多 原因 在 于 越 来 越 多 的 公 
司 开始 投入 大 量 资 源 来 文 持 和 使 用 它 。 随 着 越 来 越 多 的 商业 服务 供应 商 
提供 文 持 ， 用 户 越发 自信 地 把 HBase 应 用 于 关键 应 用 系统 。 一 个 设计 初 
衷 是 用 来 存储 互联 网 持续 更 新 网 页 副本 的 技术 ， 用 在 互联 网 相关 的 其 他 
方面 也 是 很 合适 的 。 例 如 ，HBase 在 社交 网 络 公司 内 部 和 周围 各 种 各 样 
的 需求 中 找到 了 用 武之 地 。 从 存储 个 人 之 间 的 通信 信息 ， 到 通信 信息 分 


百 心志 

















析 ， HBase 成 为 了 Facebook、Twitter 和 StumbleUpon 等 公司 的 关键 基础 
在 这 个 领域 ，HBase 有 3 种 主要 使 用 场景 ， 但 不 限于 这 3 种 。 为 了 保 
持 本 布 简 单 明 了 ， 本 贡 我 们 只 介绍 主要 的 使 用 场景 。 
12.2 增 量 才 


数据 通常 是 细水长流 的 ， 累 加 到 已 有 数据 库 以 备 将 来 使 用 ， 如 分 
析 、 处 理 和 服务 。 许 多 HBase 使 用 场景 属于 这 一 类 一 一 使 用 HBase 作 
为 数据 存储 ， 抓 取 来 自 各 种 数据 源 的 增 量 数据 。 例 如 ， 这 种 数据 源 可 能 
是 网 页 扑 虫 (我 们 讨论 过 的 BigTable 典 型 问题 ， 可 能 是 记录 用 户 看 了 
什么 广告 和 看 了 多 长 时 间 的 广告 效果 数据 ， 也 可 能 是 记录 各 种 参数 的 时 
间 序 列 数据 。 我 们 讨论 几 个 成 功 的 使 用 场景 ， 以 及 这 些 项 目 涉及 的 公 
同 。 

1. 抓 取 监控 指标 : OpenTSDB 

服务 数 百 万 用 户 的 基于 Web 的 产品 的 后 台 基 础 设施 一 般 都 有 数 百 或 
数 千 台 服务 器 。 这 些 服务 器 承担 了 各 种 功能 一 一 服务 流量 ， 抓 取 日 志 ， 
存储 数据 ， 处 理 数据 ， 等 等 。 为 了 保证 产品 正常 运行 ， 监 控 服 务 器 和 上 
面 运行 的 软件 的 健康 状态 是 至 关 重 要 的 〈 从 OS 到 用 户 交 互 应 用 ) 。 大 
规模 监控 整个 环境 需要 能 够 采集 和 存储 来 自 不 同 数据 源 各 种 监控 指标 的 
监控 系统 。 每 个 公司 都 有 自己 的 办 法 。 一 些 公司 使 用 商业 工具 来 收集 和 
展示 监控 指标 ， 而 另外 一 些 公司 采用 开源 框架 。 

StumbleUpon 创 建 了 一 个 开源 框架 ， 用 来 收集 服务 器 的 各 种 监控 指 
标 。 按 照 时 间 收 集 监 控 指 标 一 般 被 称 为 时 间 序 列 数 据 ， 也 就 是 说 ， 按 照 
时 则 顺序 收集 和 记录 的 数据 。StumbleUpon 的 开源 框架 叫做 
OpenTSDB， 它 是 Open Time Series Database 《开放 时 间 序 列 数据 库 ) 的 
缩写 。 这 个 框架 使 用 HBase 作 为 核心 平台 来 存储 和 检索 所 收集 的 监控 指 
标 。 创 建 这 个 框架 的 目的 是 为 了 拥有 一 个 可 扩展 的 监控 数据 收集 系统 ， 





























一 方面 能 够 存储 和 检索 监控 指标 数据 并 保存 很 长 时 间 ， 另 一 方面 如 采 需 
要 增加 功能 也 可 以 添加 各 种 新 监控 指标 。StumbleUpon 使 用 OpenTSDB 
监控 所 有 基础 设施 和 软件 ， 包 括 HBase 集群 自身 。OpenTSDB 作 为 搭建 
在 HBase 之 上 的 一 种 示例 应 用 ， 我 们 将 在 第 7 章 详 细 介 绍 。 

2. 抓 取 用 户 交 互 数据 : Facebook 和 StumbleUpon 

抓 取 监 控 指 标 是 一 种 使 用 方式 。 还 有 一 种 是 抓 取 用 户 交 互 数 据 。 如 
何 跟 踩 数 百 万 用 户 在 网 站 上 的 活动 ?怎么 知道 哪 一 个 网 站 功能 最 受 欢 
迎 ? 怎样 使 得 这 一 次 网 页 浏览 直接 影响 到 下 一 次 ? 例如 ， 谁 看 了 什么 ? 
某 个 按钮 被 点 击 了 多 少 次 ? 还 记得 Facebook 和 Stumble 里 的 Like 按钮 和 
StumbleUpon 里 的 +1 按钮 吗 ? 是 不 是 听 起 来 像 是 一 个 计数 问题 ?每 次 用 
户 喜 欢 一 个 特定 主题 ， 计 数 器 增加 一 次 。 

StumbleUpon 在 开始 阶段 采用 的 是 MySQL， 但 是 随 着 网 站 服务 越 来 
越 流行 ， 这 种 技术 选择 遇 到 了 问题 。 和 急剧 增长 的 用 户 在 线 负 载 需求 远 远 
超过 了 MySQL 集 群 的 能 力 ， 最 终 StumbleUpon 选 择 使 用 HBase 来 替换 这 
些 集群 。 当 时 ，HBase 产 品 不 能 直接 提供 必需 的 功能 。StumbleUpon 在 
HBase 上 做 了 一 些小 的 开发 改动 ， 后 来 将 这 些 开 发 工作 贡献 回 了 项 目 社 
区 3 

FaceBook 使 用 HBase 的 计数 器 来 计量 人 们 剖 欢 特定 网 页 的 次 数 。 
内 容 原创 人 和 网 页 主人 可 以 得 到 近乎 实时 的 、 多 少 用 户 喜欢 他 们 网 页 的 
数据 信息 。 他 们 可 以 因此 更 敏捷 地 判断 应 该 提供 什么 内 容 。Facebook 为 
此 创建 了 一 个 叫 Facebook Insights 的 系统 ， 该 系统 需要 一 个 可 扩展 的 存 
储 系 统 。 公 司 考 虑 了 很 多 种 可 能 的 选择 ， 包 括 关 系 型 数据 库 管理 系统 、 
内 存 数 据 库 和 Cassandra 数据 库 ， 最 后 决定 使 用 HBase。 基 于 HBase， 
Facebook 可 以 很 方便 地 横 同 扩展 服务 规模 ， 给 数 百 万 用 户 提 供 服 务 ， 还 
可 以 继续 沿用 他 们 已 有 的 运行 大 规模 HBase 集 群 的 经 验 。 该 系统 每 天 处 
理 数 百 亿 条 事件 ， 记 录 数 百 个 监控 指标 。 

3. 遥测 技术 : Mozilia 和 Trend Micro 




















软件 运行 数据 和 软件 质量 数据 ， 不 像 监控 指标 数据 那么 简单 。 例 
如 ， 软 件 山 尝 报 告 是 有 用 的 软件 运行 数据 ， 经 常用 来 探究 软件 质量 和 规 
划 软 件 开发 路 线 图 。HBase 可 以 成 功 地 用 来 捕获 和 存储 用 户 计算 机 上 生 
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Mozilla 基 金 会 负责 FireFox 网 络 浏览 器 和 Thunderbird 电 子 邮 件 客 户 
端 两 个 产品 。 这 些 工 具 安装 在 全 世界 数 百 万 台 计 算 机 上 ， 文 持 各 种 操作 


系统 。 当 这 此 工具 崩溃 时 ， 会 以 Bug 报 告 的 形式 返回 一 个 软件 月 尝 报告 
给 Mozilla。Mozilla 如 何 收 集 这 些 数据 ? 收集 后 义 是 怎么 使 用 的 呢 ? 实 
际 情况 是 这 样 的 ， 一 个 叫做 Socorro 的 系统 收集 了 这 些 报 告 ， 用 来 指导 研 
发 部 门 研 制 更 稳定 的 产品 。Socorro 系 统 的 数据 存储 和 分 析 建 构 在 HBase 
上 2 

使 用 HBase， 基 本 分 析 可 以 用 到 比 以 前 多 得 多 的 数据 。 这 种 分 析 用 
来 指导 Mozilla 的 开发 人 员 ， 使 其 更 为 专注 ， 研 制 出 Bug 最 少 的 版 本 。 

Trend Micro 为 企业 客户 提供 互联 网 安全 和 入 侵 管理 服务 。 安 全 的 
重要 环节 是 感知 ， 日 志 收 集 和 分 析 对 于 提供 这 种 感知 能 力 是 至 关 重 要 
的 。Trend Micro 使 用 HBase 来 管理 网 络 信誉 数据 库 ， 该 数据 库 需 要 行 
级 更 新 和 支持 MapReduce 批 处 理 。 有 点 像 Mozilla 的 Socorro 系 统 ，HBase 
也 用 来 收集 和 分 析 日 志 活 动 ， 每 天 收集 数 十 亿 条 记录 。HBase 中 灵活 的 
数据 模式 允许 数据 结构 出 现 变 化 ， 当 分 析 流 程 重 新 调整 时 ，Trend Micro 
可 以 增加 新 属性 。 

4. 广告 效果 和 点 击 流 

过 去 十 来 年 ， 在 线 广告 成 为 互联 网 产品 的 一 个 主要 收入 来 源 。 先 提 
供 人 免费 服务 给 用 户 ， 在 用 户 使 用 服务 的 时 修 投 放 广 告 给 目标 用 户 。 这 种 
精准 投放 需要 针对 用 户 交 互 数 据 做 详细 的 捕获 和 分 析 ， 以 便 理解 用 户 的 
特征 。 基 于 这 种 特征 ， 选 择 并 投放 广告 。 精 细 的 用 户 交 互 数据 会 融 来 更 
好 的 模型 ， 进 而 导致 更 好 的 广告 投放 效果 ， 并 获得 更 多 的 收入 。 但 这 类 




















数据 有 两 个 特点 : 它 以 连续 流 的 形式 出 现 ， 它 很 容易 按 用 户 划 分 。 理 想 
情况 下 ， 这 种 数据 一 旦 产生 束 能 够 马上 使 用 ， 用 户 特征 模型 可 以 没有 延 
述 地 持续 优化 ， 也 就 是 说 ， 以 在 线 方式 使 用 。 

在 线 系统 与 离线 系统 

在 线 和 离线 的 术语 多 次 出 现 。 对 于 初学 者 来 说 ， 这 些 术语 描述 了 软 
件 系 统 执行 的 条 件 。 在 线 系统 需要 低 延 运 。 某 些 情况 下 ， 系 统 哪 怕 给 出 
没有 答案 的 啊 应 ， 也 要 比 花 了 很 长 时 间 给 出 正确 答案 的 啊 应 好 。 你 可 以 
把 在 线 系统 想象 为 一 个 跳 着 脚 的 没有 耐心 的 用 户 。 离 线 系统 不 需要 低 延 
迟 ， 用 户 可 以 等 待 答案 ， 不 期 竺 马上 给 出 啊 应 。 当 实现 应 用 系统 时 ， 在 
线 或 者 离线 的 目标 影响 着 许多 技术 决策 。HBase 是 一 个 在 线 系统 。 和 
Hadoop MapReduce 的 紧密 结合 又 赋予 它 离 线 访问 的 能 

HBase 非 常 适合 收集 这 种 用 户 交 互 数据 ，HBase 已 经 成 功 地 应 用 在 
这 种 场合 ， 它 可 以 存储 第 一 手 点 击 流 和 用 户 交 互 数 据 ， 然 后 用 不 同 的 处 
理 方式 《MapReduce 是 其 中 一 种 ) 来 处 理 数 据 (清理 、 丰 定 和 使 用 数 
据 ) 。 在 这 类 公司 ， 你 会 发 现 很 多 HBase 案 例 。 


1.2.3 内 容 服 务 


传统 数据 库 最 主要 的 使 用 场合 之 一 是 为 用 户 提 供 内 容 服 务 。 各 种 各 
样 的 数据 库 支 撑 着 提供 各 种 内 容 服 务 的 应 用 系统 。 多 年 来 ， 这 些 应 用 一 
直 在 发 展 ， 因 此 它们 所 依赖 的 数据 库 也 在 发 展 。 用 户 希 望 使 用 和 交互 的 
内 容 种 类 越 来 越 多 。 此 外 ， 由 于 互联 网 迅猛 的 增长 以 及 终端 设备 更 加 迅 
独 的 增长 ， 对 这 些 应 用 的 接 入 方式 提出 了 更 高 的 要 求 。 各 种 各 样 的 终端 
设备 市 来 了 男 一 个 挑战 :不 同 的 设备 需要 以 不 同 的 格式 使 用 同样 的 内 
容 。 

上 面 说 的 是 用 户 消费 内 容 (user consuming content) ， 另 外 一 个 完 
全 不 同 的 使 用 场景 是 用 户 生 成 内 容 (user generate content) 。Twitter 帖 
子 、Facebook 帖 子 、Imstagram 图 片 和 微 博 等 都 是 这 样 的 例子 。 

















它们 的 相同 之 处 是 使 用 和 生成 了 许多 内 容 。 大 量 用 户 通 过 应 用 系统 
来 使 用 和 生成 内 容 ， 而 这 些 应 用 系统 需要 HBase 作 为 基础 。 

内 容 管理 系统 (Content Management System，CMS) 可 以 集中 管理 
一 切 ， 可 以 用 来 存储 内 容 和 提供 内 容 服务 。 但 是 当 用 户 越 来 越 多 ， 生 成 
的 内 容 越 来 越 多 的 时 候 ， 就 需要 一 个 更 具 可 扩展 性 的 CMS 解决 方案 。 可 
扩展 的 Lily CMS HH 使 用 HBase 作 为 基础 ， 加 上 其 他 开源 框架 ， 如 Solr， 
构成 了 一 个 完整 的 功能 组 合 。 

Salesforce 提 供 托管 CRM 产 品 ， 这 个 产品 通过 网 络 浏览 器 界面 提交 
给 用 户 使 用 ， 显 示 出 丰富 的 关系 型 数据 库 功 能 。 在 Google 发 表 NoSQL 原 
型 概念 论文 之 前 很 长 一 段 时 间 ， 在 生产 环境 中 使 用 的 大 型 关键 数据 库 最 
合理 的 选择 就 是 商用 关系 型 数据 库 管理 系统 。 多 年 来 ，Salesforce 通过 
数据 库 分 库 和 人 尖 绒 性 能 优化 手段 的 结合 扩展 了 系统 处 理 能 力 ， 达 到 每 天 








处 理 数 亿 事 务 的 能 
当 Salesforce 把 分 布 式 数据 库 系 统 列 入 选择 范围 后 ， 他 们 评测 了 所 有 








NoSQL 技 术 产 品 ， 最 后 决定 部 署 HBase 上 。 一 致 性 的 需求 是 这 个 决定 
的 主要 原因 。BigTable 类 型 的 系统 是 唯一 的 架构 方式 ， 结 合 了 无 颖 水 平 
扩展 能 力 和 行 级 强 一 致 性 能 力 。 此 外 ，S$alesforce 已 经 在 使 用 Hadoop 完 
成 大 型 离线 批 处 理 任务 ， 他 们 可 以 继续 治 用 Hadoop 上 面积 累 的 宝 贯 经 
验 。 

1. URL 短 链接 

最 近 一 段 时 间 URL 短 链接 非常 流行 ， 许 多 类 似 产 品 破土 而 出 。 
StumbleUpon 使 用 名 字 为 su.pr. 的 短 链接 产品 ， 这 个 产品 以 HBase 为 基 
础 。 这 个 产品 用 来 缩短 URL， 存 储 大 量 的 短 链接 以 及 和 原始 长 链接 的 英 
射 关 系 ，HBase 帮 助 这 个 产品 实现 扩展 能 力 。 

2. 用 户 模 型 服务 

经 HBase 处 理 过 的 内 容 往往 并 不 直接 提交 给 用 户 使 用 ， 而 是 用 来 决 








定 应 该 提交 给 用 户 什么 内 容 。 这 种 中 间 处 理 数据 用 来 丰富 用 户 的 交互 。 

还 记得 前 面 提 到 的 广告 服务 场景 里 的 用 户 特征 吗 ? 用 户 特征 〈 或 者 
说 模型 ) 就 是 来 自 HBase。 这 种 模型 多 种 多 样 ， 可 以 用 于 多 种 不 同 场 
景 。 例 如 ， 针 对 特定 用 户 投放 什么 广告 的 决定 ， 用 户 在 电 商 网 站 购物 时 
实时 报价 的 决定 ， 用 户 在 搜索 引擎 检 索 时 增加 背景 信息 和 关联 内 容 ， 等 
等 。 很 多 这 种 使 用 案例 可 能 不 便于 公开 讨论 ， 说 多 了 我 们 就 有 有 奢 烦 了 。 

当 用 户 在 电 商 网 站 上 发 生 交 易 时 ，Runa Hal 用 户 模型 服务 可 以 用 来 
实时 报价 。 这 种 模型 需要 基于 不 断 产生 的 新 用 户 数据 持续 调 优 。 


1.2.4 信息 交 








各 种 社交 网 络 破土 而 出 虽 ， 世 界 变 得 越 来 越 小 。 社 交 网 站 的 一 个 
重要 作用 就 是 帮助 人 们 进行 互动 。 有 时 互动 在 群 组 内 发 生 《 人 小 规模 和 大 
规模 ) ， 有 时 互动 在 两 个 个 人 之 间 发 生 。 想 想 看 ， 数 亿 人 通过 社交 网 络 
进行 对 话 的 场面 。 单 单 和 远 处 的 人 对 话 还 不 足以 让 人 满意 ， 人 们 还 想 看 
看 和 其 他 人 对 话 的 历史 记录 。 让 社交 网 络 公司 感到 笠 运 的 是 ， 保 存 这 些 
历史 记录 很 廉价 ， 大 数据 领域 的 创新 可 以 帮助 他 们 充分 利用 廉价 的 存 
储 。 名 | 

在 这 方面 ，Facebook 短 信和 系统 经 常 被 公开 讨论 ， 它 也 可 能 极 大 地 推 
动 了 HBase 的 发 展 。 当 你 使 用 Facebook 时 ， 某 个 时 候 你 可 能 会 收 到 或 者 
发 送 短信 给 你 的 朋友 。Facebook 的 这 个 特性 完全 依赖 于 HBase。 用 户 读 
写 的 所 有 短信 都 存储 在 HBase 里 6l 。Facebook 短 信 系统 要 求 : 高 的 写 
否 吐 量 ， 极 大 的 表 ， 数 据 中 心 内 的 强 一 臻 性。 除了 短信 系统 之 外 ， 其 他 
应 用 系统 要 求 : 高 的 读 否 吐 量 ， 计 数 器 否 吐 量 ， 上 自动 分 库 。 工 程 师 们 发 
现 HBase 是 一 个 理想 的 解决 方案 ， 因 为 它 文 持 所 有 这 些 特性 ， 它 拥有 一 
个 活跃 的 用 户 社区 ，Facebook 运营 团队 在 Hadoop 部 普 上 有 丰富 经 验 ， 


等 等 。 在 “Hadoop goes realtime at Facebook HL ”这 篇 文章 里 ，Facebook 





























工程 师 解 释 了 这 个 决定 背后 的 逻辑 并 展示 了 他 们 使 用 Hadoop 和 HBase 构 
建 在线 系 统 的 经 验 。 

Facebook 工 程 师 在 HBaseCon 2012 大 会 上 分 享 了 一 些 有 趣 的 数据 。 
在 这 个 平台 上 每 天 交换 数 十 亿 条 短信 ， 每 天 带 来 大 约 750 亿 次 操作 。 尖 
峰 时 刻 ，Facebook 的 HBase 集 群 每 秒 发 生 150 万 次 操作 。 从 数据 规模 角度 
看 ，Facebook 的 集群 每 月 增加 250TB 的 新 数据 Hal ， 这 可 能 是 已 知 的 最 
大 的 HBase 部 署 ， 无 论 是 服务 器 的 数量 还 是 服务 器 所 承载 的 用 户 量 。 

上 述 一 些 示 例 ， 解 释 了 HBase 如 何 解 决 一 些 有 趣 的 老 问题 和 新 问 
题 。 你 可 能 注意 到 一 个 共同 点 : HBase 可 以 用 来 对 相同 数据 进行 在 线 服 
务 和 离线 处 理 。 这 正 是 HBase 的 独到 之 处 。 了 解 到 可 以 如 何 使 用 HBase 
之 后 ， 现 在 来 试用 一 下 。 


1.3 你 好 HBase 


HBase 搭建 在 Apache Hadoop 和 Apache ZooKeeper 上 面 。 就 像 
Hadoop 家 族 其 他 产品 一 样 ， 它 是 用 Java 编 写 的 。HBase 可 以 以 3 种 模式 
运行 : 单机 、 伪 分 布 式 和 全 分 布 式 。 下 面 我 们 将 使 用 的 是 单机 模式 。 这 
意味 着 在 一 个 Java 进程 里 运行 HBase 的 全 部 内 容 。 这 种 访问 模式 用 于 研 
完 HBase 和 做 本 地 开发 。 

伪 分 布 式 模式 需要 在 一 台 机 器 上 运行 多 个 Java 进 程 。 最 后 的 全 分 布 
模式 需要 一 个 服务 器 集群 。 这 两 种 模式 需要 安装 相关 联 的 软件 包 以 及 合 
理 地 配置 HBase。 这 些 内 容 将 在 第 9 章 讨论 。 

HBase 设 计 运 行 在 *nix 系 统 上 ， 代 人 码 和 书 中 的 命令 都 是 为 *nix 系 统 
设计 的 。 如 果 你 使 用 Windows 系 统 ， 最 好 的 选择 是 安装 一 个 Linux 虚 拟 
机 。 

关于 Java 的 解释 

HBase 基 本 上 用 Java 编 写 ， 只 有 几 个 部 件 不 是 ， 最 优先 文 持 的 语言 














自然 是 Java。 如 果 你 不 是 Java 开 发 员 ， 在 学 习 HBase 时 需要 学 习 一 些 Java 
技能 。 本 书 的 目标 是 指导 你 如 何 有 效 地 使 用 HBase， 很 大 篇 幅 内 容 关 于 
如 何 使 用 API， 它 们 都 是 Java 的 。 所 以 ， 辛 苦 一 点 儿 吧 。 

1.3.1 快速 安装 

以 单机 模式 运行 HBase， 过 程 很 简单 。 你 可 以 选择 Apache HBase 
0.92.1 版 本 ， 使 用 tar 文件 包 进 行 安装 。 第 9 章 会 讨论 其 他 各 种 发 行 版 。 
如 果 你 选择 不 同 于 Apache HBase 0.92.1 的 其 他 版 本 ， 也 是 可 以 使 用 的 。 
本 书 的 例子 基于 HBase 0.92.1 版 本 (和 Cloudera CDH4) ， 其 他 API 兼 容 
的 版 本 应 该 都 可 以 正常 工作 。 

HBase 需 要 系统 安装 Java 运 行 环境 (JRE) 。 和 生产 系统 环境 我 们 推荐 
Oracle 的 Java 软 件 包 。Hadoop 和 HBase 社 区 测试 了 一 些 JRE 所 本， 写作 本 
书 时 HBase 0.92.1 或 CDH4 的 推荐 版 本 是 Java 1.6.0_31 上 。Java 7 至 今 
没有 测试 ， 因 此 并 不 推荐 。 安 装 HBase 之 前 先 在 系统 上 安装 Java。 

到 Apache HBase 网 站 的 下 载 区 下 载 tar 文件 包 (http:// 


hbase.apache.org/) : 


$ mkdir hbase-install 

cd hbase-install 

wget http://apache.claz.org/hbase/hbase-0.92.1/hbase-0.92.1.tar.gz 
tar xvfz hbase-0.92.1.tar.gz 


上 述 步 骤 从 Apache 镜 像 站 点 下 载 和 解压 了 HBase 的 tar 文 件 包 。 方 便 
起 见 ， 创 建 一 个 环境 变量 指向 这 个 目录 ， 后 面 会 比较 省 事 。 把 它 写 入 环 
境 变 量 文件 ， 以 便 每 次 打开 Shell 时 不 用 重复 设置 。 书 中 后 面 都 会 用 到 
HBASE_HOME: 

$ export HBASE HOME= pwd /hbase-0.92.1 
完成 后 ， 使 用 系统 提供 的 脚本 局 动 HBase: 


$ $SHBASE HOME/bin/start-hbase.sh 
starting master, logging to .../hbase-0.92.1/bin/../logs/...-master out 


如 果 可 以 ， 把 $8HBASE_HOME/bin 放 进 PATH 变量 ， 以 便 下 次 你 可 
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以 直接 执行 hbase 而 不 是 $SHBASE_HOME/bin/hbase。 

全 部 做 完 后 ， 单 机 模式 的 HBase 就 安装 成 功 了 。HBase 的 配置 信息 
主要 在 两 个 文件 里 : hbase-env.sh 和 hbase-site.xml。 这 两 个 文件 存放 
在 /etc/hbase/conf/ 目 录 下 。 单 机 模式 的 默认 设置 里 ，HBase 写 数 据 到 目 
录 /tmp 下 ， 但 是 该 目录 不 是 长 期 保存 数据 的 地 方 。 你 可 以 编辑 hbase- 
site.xml 文 件 ， 添 加 下 面 配置 信息 来 将 目录 改 到 你 指定 的 地 方 : 
<property> 

<name>hbase.rootdir</name> 


<value>file:///home/user/myhbasedirectory/</value> 
</property> 


HBase 安装 成 功 后 有 一 个 简单 管理 界面 ， 运 行 在 端口 http:// 
localhost:60010， 如 图 1-2 所 示 。 
es HBase 已 经 启动 ， 现 在 开始 使 用 HBase。 


») Mase Master: localhost, 381 x 


























后 ec © localhost:60010/ma Ster- Statu 9 局 人 狼人 入 
Master: localhost:38155 月 :对 ARSE 
Attributes 

| Attribute Name | Value | Description 
lHBase Version 0.92.1-cdh400,rUnknown HBase version and revision 

lHBase Compiled Mon Jun 4 17:27:36 PDT 2012, root [When HBase version was compiled and by whom 

|Hadoop Version 200<cdh400,.r5sd678Sf6bb1f2bc49e2287dd69ac41d7232fc9edc lHadoop version and revision 

IHadoop Compiled Mon Jun 4 16:52:25 PDT 2012, pnkins when Hadoop version was compiled and by whom 

IHBase Root Directory fe /tmp/hbase. -hbase/hbase Location of HBase home directory 

[HBase Cluster ID 1 ES 107a-450f-9c94- 人 91c4059d289 | |Unique identifier generated for cach HBase cluster 
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图 1-2 HBase Master 状 态 页 面 。 该 页 面 可 以 看 到 HBase 的 健康 状态 。 
也 可 以 了 解数 据 的 分 布 ， 执 行 一 些 基 本 的 管理 任务 ， 但 是 大 部 分 管理 任 

务 不 是 在 这 个 页 面 完成 的 。 第 10 章 将 教 你 更 多 HBase 运 维 知 识 

1.3.2 HBase Shell 命 令 行 交 五 

你 可 以 使 用 HBase Shell， 通 过 命令 行 方式 和 HBase 进 行 交互 。 本 地 
安装 和 集群 安装 都 采用 同样 的 Shell 方 式 。HBase Shel] 是 一 个 封装 了 Java 
客户 端 API 的 JRuby 应 用 软件 ， 有 两 种 运行 方式 : 交互 模式 和 批 处 理 模 
式 。 交 互 模式 用 于 对 HBase 进 行 随时 访问 交互 ， 批 处 理 模式 主要 通过 
Shell 脚 本 进行 程序 化 交互 或 者 用 于 加 载 小 文件 。 在 本 章节 我 们 使 用 交互 
模式 。 

JRuby 和 JVM 语 言 

不 熟悉 Java 的 人 可 能 被 JRuby 的 概念 搞 迷 糊 了 。JRuby 是 在 Java 运 行 
时 上 面 的 Ruby 编 程 语言 的 实现 。 除 了 正常 的 Ruby 语 法 ，JRuby 文 持 访问 
Java 对 象 和 函数 库 。JVM 上 不 仅仅 只 是 Java 和 JRuby。Jython 是 JVM 上 
Python 的 实现 ， 还 有 一 些 完全 不 同 的 语言 ， 如 Clojure 和 Scala。 上 所 有 这 些 
语言 都 可 以 通过 Java 客 户 端 API 来 访问 HBase。 

让 我 们 开始 使 用 交互 模式 。 在 终端 中 执行 hbase shell 命令 启动 
Shell。Shell 可 以 文 持 命 令 目 动 补 全 和 命令 文档 内 联 访问 : 

$ hbase shell 
HBase Shell; enter 'help<RETURN>' for list of supported commands. 


Type "exit<RETURN>" to leave the HBase Shell 
Version 0.92.1-cdh4.0.0, rUnknown, Mon Jun 4 17:27:36 PDT 2012 





hbase (main):001:0> 

走 到 这 一 步 ， 可 以 确认 Java 和 HBase 函数 库 已 经 安装 成 功 。 为 了 最 
终 验 证 ， 可 以 试 试 列 出 HBase 中 所 有 表 的 命令 。 这 个 动作 执行 了 一 个 全 
程 请 求 ， 从 客户 端 应 用 到 HBase 服 务 器 ， 然 后 返回 。 在 Shell 提 示 符 下 ， 
输入 jlist 然 后 按 下 回 车 键 。 你 应 该 看 到 输出 0 个 结果 ， 以 及 接 下 来 的 提示 


hbase (main) :001:0> list 
TABLE 
0 row(s) in 0.5710 seconds 


hbase (main) :002:0> 
完成 安装 和 验证 后 ， 现 在 创建 表 并 存储 一 些 数据 。 


1.3.3 存储 数据 


HBase 使 用 表 作 为 项 级 结构 来 存储 数据 。 写 数据 到 HBase， 束 是 
数据 到 表 。 现 在 开始 ， 创 建 一 个 有 一 个 列 族 的 表 ， 名 字 是 ed 是 
的 ， 列 族 ( 别 着 急 ， 后 面 会 解释 这 个 术语 ) 。 现 在 创建 表 : 


hbase (main) :002:0> create 'mytable', 'cf' 
中 在 2 kk | 
0 row(s) in 1.0730 seconds 创建 表 mytable, 列 


hbase (main) :003:0> list 族 名 是 cf 
TABLE 

mytable 

1 row(s) in 0.0080 seconds 


1. 写 数 据 

表 创 建 后 ， 现 在 写 入 一 些 数据 。 我 们 往 表 里 写 入 字符 串 hello 
HBase。 按 HBase 的 说 法 ， 我 们 这 么 说 , “在 'mytable' 表 的 'first' 行 中 
的 'cf:message' 列 对 应 的 数据 单元 中 插入 字 市 数组 'hello HBase” 能 听信 
吗 ? 下 一 章 我 们 会 解释 所 有 这 些 术 语 。 现 在 ， 执 行 写 入 命令 : 


hbase (main) :004:0> put 'mytable', 'first', 'cf:message', 'hello HBase' 
0 row(s) in 0.2070 seconds 


简单 吧 。HBase 存 储 数字 的 方式 和 存储 字符 串 一 样 。 继 续 多 增加 几 
A Wh 
hbase (main) :005:0> put 'mytable', 'second', 'cf:foo', 0x0 
0 row(s) in 0.0130 seconds 
( 


hbase (main) :006:0> put 'mytable', 'third', 'cf:bar', 3.14159 
0 row(s) in 0.0080 second 


现在 表 里 有 3 行 和 3 个 数据 单元 。 注 意 ， 在 使 用 列 的 时 候 你 并 没有 提 











列 出 新 创建 的 表 





前 定义 这 些 列 ， 你 也 没有 定义 往 每 个 列 里 存储 的 数据 的 类 型 。 这 就 是 
NoSQL 粉 丝 们 所 说 的 ，HBase 是 一 种 无 模式 〈schema-less) 的 数据 库 。 
如 果 写 入 数据 后 不 能 读 取 出 来 也 是 没有 用 的 ， 现 在 读 回 数据 看 看 。 

2. 读数 据 

HBase 有 两 种 方式 读 取 数据 : get 和 scan。 你 肯定 敏锐 地 注意 到 了 ， 
HBase 存 储 数 据 的 命令 是 put。 和 put 相 对 应 ， 读 取 一 行 的 命令 是 get。 还 
记得 我 们 说 过 ，HBase 除 了 键 值 API 还 有 一 些 特别 之 处 吗 ?scan 就 是 这 个 
特别 所 在 。 第 2 章 会 介绍 scan 是 如 何 工 作 的 以 及 为 什么 它 很 重要 ， 同 时 
会 重点 关注 如 何 使 用 它 。 


现在 执行 get: 
hbase (main) :007:0> get 'mytable', 'first' 
COLUMN CELDL 
cf :message timestamp=1323483954406, value=hello HBase 


1 row(s) in 0.0250 seconds 


如 上 所 示 ， 你 得 到 了 第 一 行 。Shell 输 出 了 该 行 所 有 数据 单元 ， 按 列 
组 织 ， 和 输出 值 还 附带 时 间 戳 。HBase 可 以 存储 每 个 数据 单元 的 多 个 时 间 
版 本 。 存 储 的 版 本 数量 默认 值 是 3 个 ， 但 可 以 重新 设置 。 读 取 的 时 候 ， 
除非 特别 指定 ， 否 则 默认 返回 最 新 时 间 版 本 。 如 果 你 不 希望 存储 多 个 时 
间 版 本 ， 可 以 设置 HBase 只 存储 一 个 版 本 ， 但 是 绝 不 要 共用 这 个 特性 。 

使 用 scan 命 令 ， 你 会 得 到 多 行 数 据 。 但 是 要 小 心 ， 我 们 必须 提醒 
你 ， 除 非特 别 指定 ， 否 则 该 命令 会 返回 表 里 的 所 有 行 。 现 在 执行 scan: 


hbase (main) :008:0> Scan 'mytable' 





ROW COLUMN+CELL 
first column=cf :message, timestamp=1323483954406, value=hell 
oO HBase 
second column=cf :foo, timestamp=1323483964825, value=0 
third column=cf :bar, timestamp=1323483997138, value=3.14159 


3 row(s) in 0.0240 seconds 











返回 了 所 有 数据 。 注 意 观察 HBase 返 回 行 的 顺序 ， 是 按 行 的 名 字 排 
序 的 。HBase 称 之 谓 行 键 (rowkey) 。HBase 还 有 很 多 技巧 ， 但 是 所 有 
其 他 东西 都 建立 在 你 刚才 使 用 的 基本 概念 上 。 好 好 体会 一 下 。 


1.4 小 结 


我 们 在 开始 的 介绍 性 章节 里 介绍 了 相当 多 的 数据 管理 技术 的 历史 资 
料 。 当 你 学 习 一 门 技术 时 ， 了 解 它 的 来 龙 去 脉 总 是 有 帮助 的 。 现 在 ， 你 
大 概 知道 了 HBase 的 起 源 以 及 NoSQL 现 象 的 大 背景 。 你 也 了 解 了 设计 
HBase 是 为 了 解决 什么 样 的 问题 ， 以 及 它 已 经 解决 了 哪些 问题 。 不 仪 如 
此 ， 你 还 安装 并 运行 了 HBase， 并 且 用 其 存储 了 一 些 可 爱 的 “hello 
world” 数 据 。 

当然 ， 我 们 会 向 你 提出 更 多 的 问题 。 强 一 致 性 为 什么 重要 ? 客户 端 
读 取 数据 时 如 何 找到 正确 的 节点 ? scan 有 趣 在 什么 地 方 ? HBase 还 有 什 
么 其 他 的 技巧 呢 ? 下 一 章 我 们 会 回答 这 些 乃 至 更 多 的 问题 。 如 果 你 打算 
搭建 一 个 使 用 HBase 作 为 后 端 数 据 存 储 的 应 用 系统 ， 第 2 章 会 告诉 你 怎么 
开始， 











他 这 ) 门 


本 章 涵 善 的 内 容 

四 连接 到 HBase 和 定义 表 

是 与 HBase 交互 的 基本 命令 

加 HBase 的 物理 数据 模型 和 逻辑 数据 模型 

晶 基于 复合 行 键 的 得 询 

下 面 几 章 的 一 个 目标 是 教 你 如 何 使 用 HBase。 作 为 一 名 应 用 开发 人 
员 ， 首 先 你 要 适应 HBase 的 特性 。 你 将 学 习 HBase 的 逻辑 数据 模型 

(logical data model) ， 访 问 HBase 的 各 种 方式 ， 以 及 如 何 使 用 这 些 API 
的 细节 。 另 外 一 个 目标 是 教 你 进行 HBase 模式 〈schema) 设计 。HBase 
有 着 和 以 往 关 系 型 数据 库 不 同 的 物理 数据 模型 (physical data model) 。 
我 们 将 介绍 一 些 HBase 物理 模型 的 基本 原理 ， 以 便 设 计数 据 模型 时 你 能 
够 利用 它 对 自己 的 应 用 系统 进行 优化 。 

为 了 完成 这 些 目标 ， 你 将 从 头 开始 搭建 一 个 应 用 系统 。 请 允许 我 们 
给 你 介绍 一 下 完全 建立 在 HBase 上 的 TwitBase， 它 是 社交 网 络 Twitter 
的 简化 克隆 版 。 我 们 不 会 实现 Twitter 的 所 有 功能 ， 而 且 这 也 不 是 一 个 准 
备 投入 使 用 的 系统 。 我 们 只 是 把 TwitBase 看 做 Twitter 的 初级 原型 产 
品 。TwitBase 和 Twitter 早期 版 本 的 主要 区 别 是 ，TwitBase 设 计 中 考虑 了 
可 扩展 性 ， 因 此 需要 依赖 数据 存储 来 实现 这 一 点 。 

本 章 从 基本 原理 开始 讲 起 。 你 会 看 到 如 何 创 建 HBase 表 ， 如 何 导入 
数据 和 读 取 数据 。 我 们 将 介绍 HBase 处 理 数 据 的 基本 操作 ， 以 及 数据 模 
型 的 基本 组 件 。 同 时 ， 你 会 学 到 一 些 HBase 的 内 部 工作 机 制 。 这 些 知识 
可 以 帮助 你 在 模式 设计 时 作出 正确 决定 。 本 章 是 学 习 HBase 和 其 余 章 节 
的 起 点 。 











要 获取 本 章 及 全 书 的 代码 ， 请 访问 https:/ 


github.com/hbaseinaction/twitbase。 
2.1 从 头 开始 


TwitBase 存储 3 种 简单 的 核心 数据 元 素 ， 即 用 户 (user) 、 推 帖 
(twit) 和 关系 〈relationship) 。 用 户 是 TwitBase 的 中 心 。 用 户 登 录 进 入 
应 用 系统 ， 维 护 用 户 信 息 ， 通 过 友 帖 与 其 他 用 户 互 动 。 推 帖 是 TwitBase 
中 用 户 公 开发 表 的 短文 。 推 帖 是 用 户 间 互动 的 主要 模式 。 用 户 通 过 互相 
转发 产生 对 话 。 所 有 互动 的 “ 粘 合剂 ?就 是 关系 。 关 系 连接 用 户 ， 使 用 户 
很 容易 读 到 其 他 用 户 的 推 帖 。 本 章 关 注 点 是 用 户 和 推 帖 ， 下 一 章 将 讨论 
关系 。 

关于 Java 

本 书 绝 大 部 分 代码 都 是 用 Java 编写 的 。 有 时 我 们 使 用 伪 代 码 来 帮 
助理 解 概念 ， 但 是 工作 代码 是 Java。 使 用 HBase，Java 是 现实 的 选择 。 
整个 Hadoop 系 列 ， 包 括 HBase， 都 使 用 Java。HBase 客 户 端 函 数 库 是 
Java，MapReduce 函 数 库 也 是 Java。HBase 的 部 署 需要 优化 JVM 性 能 。 但 
是 可 以 使 用 非 Java 和 非 JYM 的 语言 来 访问 HBase， 第 6 章 会 讨论 这 些 内 


i 


容 。 





2.1.1 创建 表 


现在 开始 搭建 TwitBase， 为 存储 用 户 竟 定 一 个 基础 。HBase 是 一 个 
在 表 里 存储 数据 的 数据 库 ， 所 以 我 们 从 创建 users 表 开 始 。 首 先进 入 


HBase Shell: 
$ hbase shell 
HBase Shell; enter 'help<RETURN>' for list of supported commands. 
Type "exit<RETURN>" to leave the HBase Shell 
Version 0.92.0, rl1231986, Mon Jan 16 13:16:35 UTC 2012 








hbase (main):001:0> 


Shell 打 开 一 个 到 HBase 的 连接 ， 给 出 提示 符 。 在 Shell 提 示 符 上 ， 创 
建 你 的 第 一 张 表 : 

hbase (main) :001:0> create 'users', 'info' 

0 row(s) in 0.1200 seconds 


hbase (main) :002:0> 

可 以 想到 users' 是 表 的 名 字 ， 但 是 'info' 是 什么 呢 ? 像 关 系 型 数据 库 
里 的 表 一 样 ，HBase 的 表 也 是 按照 行 (row) 和 列 (column) 来 组 织 
的 。HBase 中 的 列 和 关系 型 数据 库 中 的 有 些 不 同 。HBase 中 的 列 组 成 列 
族 (column family) 。info 就 是 users 表 的 一 个 列 族 。HBase 中 的 表 必 须 
至 少 有 一 个 列 族 。 它 们 之 中 ， 列 族 直接 影响 HBase 数 据 存 储 的 物理 特 
性 。 因 此 ， 创 建 表 时 必须 至 少 指定 一 个 列 族 。 表 创建 后 列 族 还 可 以 更 
改 ， 但 是 这 么 做 很 麻烦 。 后 面 我 们 会 详细 讨论 列 族 ， 现 在 只 需要 知道 
users 表 足 够 简单 ， 只 有 一 个 列 族 ， 就 可 以 了 。 

2.1.2 检查 表 横 式 


如 果 你 熟悉 关系 型 数据 库 ， 会 马上 注意 到 ，HBase 创建 表 时 没 提 到 
任何 列 或 者 数据 类 型 。 除 了 列 族 名 字 ，HBase 什么 也 不 需要 。 这 束 是 
HBase 经 常 被 称 作 无 模式 数据 库 的 原因 。 

你 可 以 要 求 HBase 列 出 所 有 已 创建 的 表 来 验证 users 表 已 经 创建 成 
功 : 








hbase (main) :002:0> list 
TABLE 

users 

1 row(s) in 0.0220 seconds 


hbase (main) :003:0> 
list 命令 可 以 显示 存在 的 表 ，HBase 也 可 以 提供 表 的 更 多 细节 。 使 
用 describe 命 令 可 以 看 到 这 个 表 的 所 有 的 默认 参数 : 





hbase (main) :003:0> describe 'users' 

DESCRIPTION ENABLED 
{NAME => 'users', FAMILIES => [{NAME => 'info', true 
BLOOMFILTER => 'NONE', REPLICATION SCOPE = 0 
>» GOMPRESSTON =>, NONE VERSIONS => 3 - TTIE 
=> '2147483647', BLOCKSIZE => '65536', IN MEMOR 
Y => 'false', BLOCKCACHE => 'true'}]} 

1 row(s) in 0.0330 seconds 

hbase (main) :004:0> 

Shell 显示 表 有 两 类 属性 信息 : 表 的 名 字 和 列 族 的 列表 。 每 个 列 族 
有 许多 相应 的 配置 信 息 细节 ， 这 些 就是 我 们 前 面 提 到 的 物理 特性 现在 
先 不 管 这 些 细 节 ， 我 们 随后 研究 它们 。 

HBase Shell 

虽然 HBase Shell 主 要 用 于 管理 任务 ， 但 它 拥有 丰富 的 特性 。 它 用 
JRuby 实现 ， 可 以 使 用 整个 Java 客 户 端 API。 你 可 以 使 用 help 命 令 进 一 
发 掘 Shell 的 功能 








2.1.3 建立 连接 


尽管 Shell 很 好 用 ， 但 是 谁 会 愿意 用 Shell 命 令 实 现 TwitBase 呢 ? 聪明 
的 HBase 开 发 人 员 知 道 这 一 点 ， 他 们 为 HBase 提供 了 一 个 全 面 的 Java 客 
户 端 库 。 也 有 面向 其 他 语言 的 类 似 的 API， 第 6 章 会 讨论 。 现 在 我 们 使 用 
Java。 打 开 users 表 连接 的 Java 代 码 如 下 所 示 : 
HTableInterface usersTable = new HTable('"users"), 

类 似 于 Shell 的 做 法 ， 构 造 函 数 HTable 读 取 默 认 配 置信 息 来 定位 
HBase。 然 后 定位 之 前 你 创建 的 users 表 ， 返 回 一 个 句柄 。 

你 也 可 以 传递 一 个 定制 的 配置 对 象 给 HTable 对 象 : 


Configuration myConf = HBaseConfiguration.create(); 
HTableInterface usersTable = new HTable (myConf, "users"),;) 


这 等 同 于 让 HTable 对 象 自己 创建 配置 信息 对 象 。 你 可 以 像 下 面 这 样 





设 定 参数 来 定制 配置 信息 : 
myConf .set ("parameter name", "parameter value"); 
HBase 客 户 端 配置 信息 
HBase 客户 端 应 用 需要 有 一 份 HBase 配置 信息 来 访问 HBase 
ZooKeeper quorum 地 址 。 你 可 以 手工 设 定 这 个 配置 如 下 : 
MyConf.set("hbase.zookeeper.quorum","serverip"); 
ZooKeeper 以 及 客户 端 与 HBase 集 群 之 间 的 交互 会 在 下 一 章 深入 研究 
分 布 式 HBase 存 储 时 讨论 到 。 现 在 你 只 需要 知道 HBase 配 置信 息 可 以 通 
过 两 种 方式 获取 ， 一 种 是 Java 客 户 端 从 类 路 径 里 的 hbase-site.xml 文 件 里 
获取 配置 信息 ， 另 一 种 是 通过 在 连接 中 显 式 设 定 配置 信息 来 获取 。 如 果 
你 没有 指定 配置 信息 ， 就 像 示 例 代 码 里 那样 ， 客 户 端 就 会 使 用 默认 配置 
言 轧 ， 把 localhost 作 为 ZooKeeper quorum 地 址 。 单 机 模式 中 ， 指 的 束 是 
你 用 来 验证 本 书 内 容 的 机 器 ， 这 正 是 你 需要 的 配置 信息 。 


2.1.4 连接 管理 


创建 一 张 表 实 例 是 个 开销 很 大 的 操作 ， 需 要 占用 一 些 网 络 资源 。 与 
直接 创建 表 句 柄 相 比 ， 使 用 连接 池 更 好 一 些 。 连 接 从 连接 池 里 分 配 ， 然 
后 再 返回 到 连接 池 。 实 践 中 ， 使 用 HTablePool 比 直接 使 用 HTable 更 为 常 
见 : 

HTablePool pool = new HTablePool () ; 
HTableInterface usersTable = pool.getTable ("users"),; 


. // work with the table 
usersTable.close(); 


当 你 完成 工作 关闭 表 时 ， 连 接 资源 会 返回 到 连接 池 里 。 
没有 数据 的 表 是 没有 用 的 ， 现 在 我 们 存储 一 些 数 据 。 











2.2 用 荣 


HBase 表 的 行 有 唯一 标识 符 ， 叫 做 行 键 (rowkey) 。 其 他 部 分 用 来 
存储 HBase 表 里 的 数据 ， 但 是 行 键 是 第 一 重要 的 。 就 像 关 系 型 数据 库 的 
主键 ，HBase 表 中 每 行 的 行 键 值 都 是 不 同 的 。 每 次 访问 表 中 的 数据 都 从 
行 键 开始 。TwitBase 中 每 个 用 户 是 唯一 的 ， 所 以 users 表 使 用 用 户 名 字 作 
为 行 键 很 方便 ， 一 会 儿 就 这 么 用 。 

和 数据 操作 有 关 的 HBase API 称 为 命令 command) 。 有 5 个 基本 
命令 用 来 访问 HBase，Get ( 读 ) 、Put 〈 写 ) 、Delete (删除 )、 

Scan〈 扫 描 ) 和 Increment 〈 递 增 ) 。 用 来 存储 数据 的 命令 是 Put。 为 了 
往 表 里 存储 数据 ， 你 需要 创建 一 个 Put 实例 。 根 据 行 键 创建 Put 实 例 ， 如 
下 所 示 : 


Put p = new Put (Bytes.toBytes("Mark Twaln'" ) ) ; 
为 什么 不 能 直接 存储 用 户 名 字 呢 ?HBase 中 所 有 数据 都 是 作为 原始 
数据 (raw data) 使 用 字 节 数组 的 形式 存储 的 ， 行 键 也 是 如 此 。Java 客 
户 端 函数 库 提 供 了 一 个 公用 类 Bytes， 用 来 转换 各 种 Java 数 据 类 型 ， 所 以 
你 不 必 担 心 。 注 意 ， 这 个 Put 实 例 还 没有 插入 到 表 中 。 现 在 只 是 创建 了 
对 象 。 





2.2.1 存储 数据 
既然 我 们 准备 好 了 一 个 命令 往 HBase 里 添加 数据 ， 你 还 需要 提供 要 
存储 的 数据 。 先 存储 一 个 叫 Mark 的 用 户 的 基本 信息 ， 如 他 的 邮件 地 址 和 
密码 。 如 果 还 有 另外 一 个 用 户 也 叫 Mark Twain 会 发 生 什么 呢 ? 它们 的 名 
字 会 冲突 ， 数 据 不 能 存储 到 TwitBase 里 。 所 以 我 们 必须 使 用 一 个 独 一 无 
二 的 用 户 名 作为 行 键 ， 用 户 的 真实 名 字 不 做 行 键 而 是 存储 在 一 个 列 里 
面 。 把 前 面 的 Put 命 令 放 在 一 起 编写 代码 如 下 : 











Put p = new Put (Bytes.toBytes ("TheRealMT")); 
p.add (Bytes.toBytes ("info"), 

Bytes.toBytes ("name"), 

Bytes.toBytes ("Mark Twain" ) ) ; 
pP.add(Bytes .上 oBytes("infto") ， 

Bytes.toBytes ("email"), 

Bytes.toBytes ("samuel@clemens .Org" ) ) ; 


往 单元 “info:name” 


存 人 “Mark Twain” 





往 单元 “info:email” 


存 人 “samuel@clemens.org” 





.add (Bytes . toBytes { "info") 7 往 单元 “info:password” 
Bytes.toBytes ("password"), 


Bytes .toBytes ("Langhorne")); 存 人 “Langhorne” 

记 住 ，HBase 使 用 坐标 来 定位 表 中 的 数据 。 行 键 是 第 一 个 坐标 ， 下 
一 个 是 列 族 。 列 族 用 做 数据 坐标 时 ， 表 示 一 组 列 。 再 下 一 个 坐标 是 列 限 
定 符 〈(column qualifier) ， 如 果 你 熟悉 HBase 术 语 ， 它 经 常 简 称 为 列 
(column) 或 标志 (qual) 。 本 例子 中 列 限 定 符 是 name、email 和 

password。 因 为 HBase 是 无 模式 的 ， 你 不 需要 事先 定义 列 限定 符 或 者 设 
定数 据 类 型 。 它 们 是 动态 的 ， 你 所 需要 做 的 只 是 在 号 入 数据 时 给 出 列 的 
名 字 。3 个 坐标 确定 了 单元 〈cell) 的 位 置 。HBase 中 数据 作为 值 
(value) 存储 在 单元 里 。 表 中 确定 一 个 单元 的 坐标 是 [rowkey, column 
family, column dualifierj]。 上 面 的 代码 在 一 行 中 存储 3 个 单元 的 3 个 值 。 其 
中 存储 Mark 名 字 的 单元 坐标 是 [TheRealMT, info, name]。 

写 数 据 到 HBase 的 最 后 一 步 是 提交 命令 给 表 。 这 一 步 很 简单 : 
HTableInterface usersTable = pool.getTable ("users'").,， 
Put p = new Put (Bytes.toBytes ("TheRealMT")),; 
p.add(...); 


usersTable .put (p),; 
usersTable.close(); 


We 








2.2.2 修改 数据 
HBase 中 修改 数据 使 用 的 方式 与 存储 新 数据 一 样 : 创建 Put 对 象 ， 在 
正确 的 坐标 上 给 出 数据 ， 提 交 到 表 。 我 们 来 给 Mark 修 改 一 个 更 安全 的 密 
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Put p = new Put (Bytes.toBytes ("TheRealMT")); 
p.add (Bytes .toBytes ("info"), 

Bytes.toBytes ("password"), 

Bytes .toBytes ("abc123")); 
usersTable .put (p); 


2.2.3 工 |，HBase 写 路 径 





在 HBase 中 无 论 是 增加 新 行 还 是 修改 已 有 的 行 ， 其 内 部 流程 都 是 相 
同 的 。HBase 接 到 命令 后 存 下 变化 信息 ， 或 者 写 入 失败 抛 出 异常 。 默 认 
情况 下 ， 执 行 写 入 时 会 写 到 两 个 地 方 ， 预 写 式 日 志 (write-ahead log， 
也 称 HLog) 和 MemStore 〈 见 图 2-1) 。HBase 的 默认 方式 是 把 写 入 动作 
记录 在 这 两 个 地 方 ， 以 保证 数据 持久 化 。 只 有 当 这 两 个 地 方 的 变化 信息 
都 号 入 并 确认 后 ， 才 认为 写 动作 完成 。 

MemStore 是 内 存 里 的 写 入 缓冲 区 ，HBase 中 数据 在 永久 写 入 硬盘 之 
前 在 这 里 累积 。 当 MemStore 填 满 后 ， 其 中 的 数据 会 刷 写 到 硬盘 ， 生 成 
一 个 HFile。HFile 是 HBase 使 用 的 底层 存储 格式 。HFile 对 应 于 列 族 ， 一 
个 列 族 可 以 有 多 个 HFile， 但 一 个 HFile 不 能 存储 多 个 列 族 的 数据 。 在 集 
群 的 每 个 节点 上 ， 每 个 列 族 有 一 个 MemStore。_B0| 

大 型 分 布 式 系 统 中 硬件 故障 很 常见 ，HBase 也 不 例外 。 设 想 一 下 ， 
如 果 MemStore 还 没有 刷 写 ， 服 务 器 就 崩 沉 了 ， 内 存 中 没有 写 入 硬盘 的 
数据 就 会 丢失 。HBase 的 应 对 办 法 是 在 写 动 作 完成 之 前 先 写 入 WAL。 
HBase 集 群 中 每 台 服 务 器 维护 一 个 WAL 来 记录 发 生 的 变化 。WAL 是 底 
层 文件 系统 上 的 一 个 文件 。 直 到 WAL 新 记录 成 功 写 入 后 ， 写 动作 才 被 
认为 成 功 完成 。 这 可 以 保证 HBase 和 支撑 它 的 文件 系统 满足 持久 性 。 大 
多 数 情况 下 ， HBase 使 用 Hadoop 分 布 式 文件 系统 CHDFS ) 来 作为 底层 


文件 系统 。 
如 果 HBase 服 务 器 宕 机 ， 没 有 从 MemStore 里 刷 写 到 HFile 的 数据 将 可 

















以 通过 回放 WAL 来 恢复 。 你 不 需要 手工 执行 。Hbase 的 内 部 机 制 中 有 
恢复 流程 部 分 来 处 理 。 每 侣 HBase 服 务 器 有 一 个 WAL， 这 人 台 服务 器 上 的 
所 有 表 《〈 和 它们 的 列 族 ) 共享 这 个 WAL。 





写 操作 会 写 入 预 写 式 日 志 (WAL) 
和 称 为 MemStore 的 内 存 写 缓冲 区 。 
客户 端 在 写 的 过 程 中 不 会 与 底层 的 
HFile 直 接 交 互 。 


当 MemStore 写 满 时 ， 会 刷 写 到 
硬盘 ， 生 成 一 个 新 HFile。 





图 2-1 HBase 写 路 径 。 每 次 写 入 HBase 需要 来 自 WAL 和 MemStore 的 
确认 。 这 两 个 确认 确保 每 次 写 入 HBase 在 尽 可 能 快 的 同时 保证 持久 性 。 
当 MemStore 写 满 时 刷 写 到 一 个 新 HFile 
你 可 能 想到 ， 写 入 时 跳 过 WAL 应 该 会 提升 写 性 能 。 但 我 们 不 建议 
禁用 WAL， 除 非 你 愿意 在 出 问题 时 丢失 数据 。 如 果 你 想 测 试 一 下 ， 如 
下 代码 可 以 禁用 WAL: 


Put p = new Put() ; 
p.setWwriteTowAL (false) ; 
注意 : 不 写 入 WAL 会 在 RegionServer 故 障 时 增加 丢失 数据 的 风险 。 
关闭 WAL， 出 现 故障 时 HBase 可 能 无 法 恢复 数据 ， 没 有 刷 写 到 硬盘 的 所 
有 写 入 数据 都 会 丢失 。 


2.2.4 读数 据 


从 HBase 读 取 数 据 和 写 入 数据 一 样 简单 。 创 建 一 个 Get 命 令 实例 ， 告 
诉 它 你 感 兴趣 的 单元 ， 提 交 到 表 : 
Get g = new Get (Bytes .oOBytes ("TheRealMT")); 
Result r = usersTable .get (9) ; 


该 表 会 返回 一 个 包含 数据 的 Result 实 例 。 实 例 中 包含 行 中 所 有 列 族 
的 所 有 列 。 这 可 能 大 大 超过 你 所 需要 的 。 你 可 以 在 Get 实 例 中 放置 限制 
条 件 来 减少 返回 的 数据 量 。 为 了 返回 列 password ， 可 以 执行 命令 
addColumn()。 对 于 列 族 同样 可 以 执行 命令 addFamily()， 下 面 的 例子 可 
以 返回 指定 列 族 的 所 有 列 : 

Get g = new Get (Bytes.toBytes ("TheRealLMT'" ) ) ; 
g.addColumn ( 

Bytes.toBytes ("info"), 


Bytes .toBytes ("password")),， 
Result r = usersTable.get (g); 


检索 特定 值 ， 从 字 市 转换 回 字符 串 ， 如 下 所 示 : 


Get g = new Get (Bytes.toBytes ("TheRealMT")); 
g.addFamily (Bytes.toBytes ("info")),; 
byte[] b = r.getVvaluel 
Bytes.toBytes ("info"), 
Bytes.toBytes ("email")); 
String email = Bytes.toString(b); // "samuel@clemens .org" 














2.2.5 工作 机 制 : HBase 读 路 径 


如 果 你 想 快速 访问 数据 ， 通 用 的 原则 是 数据 保持 有 序 并 尽 可 能 保存 
在 内 存 里 。HBase 实 现 了 这 两 个 目标 ， 大 多 情况 下 读 操 作 可 以 做 到 坚 秒 
级 。HBase 恋 动作 必须 重新 衔接 持久 化 到 硬盘 上 的 HFile 和 内 存 中 
MemStore 里 的 数据 。HBase 在 读 操作 上 使 用 了 LRU“《 最 近 最 少 使 用 算 
法 ) 缓存 技术 。 这 种 缓存 也 叫做 BlockCache， 和 MemStore 在 一 个 JVM 扒 
里 。BlockCache 设 计 用 来 保存 从 HFile 里 读 入 内 存 的 频繁 访问 的 数据 ， 避 
免 便 盘 读 。 每 个 列 族 都 有 自己 的 BlockCache。 

掌握 BlockCache 是 优化 HBase 性 能 的 一 个 重要 部 分 。BlockCache 中 
的 Block 是 HBase 从 硬盘 完成 一 次 读 取 的 数据 单位 。HFile 物理 存放 形式 
是 一 个 Block 的 序列 外 加 这 些 Block 的 索引 。 这 意味 着 ， 从 HBase 里 读 取 
一 个 Block 需 要 先 在 索引 上 得 找 一 次 该 Block 然 后 从 硬盘 恋 出 。Block 是 
建立 索引 的 最 小 数据 单位 ， 也 是 从 硬盘 读 取 的 最 小 数据 单位 。Block 大 
小 按照 列 族 设 定 ， 默 认 值 是 64 KB。 根 据 使 用 场景 你 可 能 会 调 大 或 者 调 
小 该 值 。 如 果 主 要 用 于 随机 查询 ， 你 可 能 需要 细 粒 度 的 Block 索 引 ， 小 
一 点 儿 的 Block 更 好 一 些 。Block 变 小 会 导致 索引 变 大 ， 进 而 消耗 更 多 内 
存 。 如 果 你 经 种 执行 顺序 扫描 ， 一 次 读 取 多 个 Block， 大 一 点 儿 的 Block 
更 好 一 些 。Block 变 大 意味 着 索引 项 变 少 ， 索 引 变 小 ， 因 此 节省 内 存 。 

从 HBase 中 读 出 一 行 ， 首 先 会 检查 MemStore 等 待 修改 的 队列 ， 然 后 
检查 BlockCache 看 包含 该 行 的 Block 是 否 最 近 被 访问 过 ， 最 后 访问 硬盘 
上 的 对 应 HFile。HBase 内 部 做 了 很 多 事情 ， 这 里 只 是 简单 概括 。 读 路 
径 如 图 2-2 所 示 。 




















BlockCache 
es 





图 2-2 HBase 读 路 径 。 把 BlockCache、MemSstore 和 HEFile 的 数据 凑 在 
一 起 ， 提 交 给 客户 端 


最 新 的 行 视图 
注意 ，HFile 存放 某 个 时 刻 MemStore 刷 写 时 的 快照 。 一 个 完整 行 的 


数据 可 能 存放 在 多 个 HFile 里 。 为 了 读 出 完整 行 ，HBase 可 能 需要 读 取 包 
含 该 行 信息 的 所 有 HFile。 





2.2.6 删除 数据 
从 HBase 中 删除 数据 和 存储 数据 工作 方式 类 似 。 基 于 一 个 行 键 创 建 
一 个 Delete 命 令 实 例 : 
Delete d = new Delete (Bytes.toBytes ("TheRealMT")),; 
usersTable.delete(d); 


也 可 以 指定 更 多 坐标 删除 行 的 一 部 分 : 


Delete d = new Delete(Bytes.toBytes ("TheReaJLMT'") ) ; 
d.deleteColumns ( 

Bytes.toBytes ("info"), 

Bytes.toBytes ("email")); 
usersTable.delete(d); 


deleteColumns() 方 法 从 行 中 删除 一 个 单元 。 这 和 deleteColumn() 方 法 
不 同 〈 注 意 方法 名 字 尾 部 少 了 s) 。deleteColumn() 方 法 删除 单元 的 内 


Ja 


容 。 





2.2.7 合并 : HBase 的 后 台 工 


Delete 命 令 并 不 立即 删除 内 容 。 实 际 上 ， 它 只 是 给 记录 打上 删除 的 
标记 。 束 是 说 ， 针 对 那个 内 容 的 一 条 新 “ 蔡 碑 ”(tombstone〉 记录 写 入 进 
来 ， 作 为 删除 的 标记 。 基 三 记 录用 来 标志 删除 的 内 容 不 能 在 Get 和 Scan 
命令 中 返回 结果 。 因 为 HFile 文 件 是 不 能 改变 的 ， 直 到 执行 一 次 大 合并 

(major compaction) ， 这 些 莫 碑记 录 才 会 被 处 理 ， 被 删除 记录 占用 的 
空间 才 会 释放 。 

合并 分 为 两 种 : 大 合并 (major compaction) 和 小 合并 〈minorco 
mpaction) 。 两 者 将 会 重 整 存储 在 HFile 里 的 数据 。 小 合并 把 多 个 小 
HFile 合 并 生成 一 个 大 HFile， 如 图 2-3 所 示 。 因 为 读 出 一 条 完整 的 行 可 能 
引用 很 多 文件 ， 限 制 HFile 的 数量 对 于 读 性 能 很 重要 。 执 行 合 并 时 ， 
HBase 读 出 已 有 的 多 个 HEFile 的 内 容 ， 把 记录 写 入 一 个 新 文件 。 然 后 ， 把 
新 文件 设置 为 激活 状态 ， 删 除 构 成 这 个 新 文件 的 所 有 老 文件 [2 。 
HBase 根 据 文件 的 号 码 和 大 小 决定 合并 哪些 文件 。 小 合并 设计 出 发 点 是 
轻微 影响 HBase 的 性 能 ， 所 以 涉及 的 HFile 的 数量 有 上 限 。 这 些 都 可 以 设 
置 。 





| HFile | 
合并 的 HFile 


| HFile | 
| HFile | | HFile | 


两 个 或 更 多 个 HFile 在 合并 期 间 被 合并 成 一 个 HFile。 

图 2-3 小 合并 。 从 已 有 的 HFile 里 读 出 记录 ， 合 并 到 一 个 HFile。 然 
后 新 Hfile 标记 为 权威 数据 ， 删 除 老 HFile。 大 合并 同时 处 理 一 个 列 族 的 
全 部 HFile 

大 合并 将 处 理 给 定 region 的 一 个 列 族 的 所 有 HFile。 大 合并 完成 后 ， 
这 个 列 族 的 所 有 HFile 合 并 成 一 个 文件 。 可 以 从 Shell 中 手工 触发 整个 表 
(或 者 特定 region)〉 的 大 合并 。 这 个 动作 相当 耗费 资源 ， 不 要 经 常 使 
用 。 男 一 方面 ， 小 合并 是 轻 量 级 的 ， 可 以 频繁 发 生 。 大 合并 是 HBase 清 
理 被 删除 记录 的 唯一 机 会 。 因 为 我 们 不 能 保证 被 删除 的 记录 和 幕 碑 标记 
记录 在 一 个 HFile 里 面 。 大 合并 是 唯一 的 机 会 ，HBase 可 以 确保 同时 访问 
到 两 种 记录 。 

在 NGDATA 博 客 的 帖子 里 更 加 详细 地 介绍 了 合并 过 程 ， 以 及 增 量 
图 解 。 2 












2.2.8 有 时 间 版 本 的 数据 


HBase 除 了 是 无 模式 数据 库 以 外 ， 还 是 有 时 间 版 本 概念 
Cversioned) 的 数据 库 。 例 如 ， 你 可 以 按照 时 间 回 调 最 初 的 密码 ; 
List<KeyValue> passwords = .getColumn (人 

Bytes.toBytes ("info"), 

Bytes .toBytes ("password"))， 

b = passwords .get (0) .getValue(); 
String currentpPpasswd = Bytes.toSstring(b); // "abc123)" 
b = passwords .get (1) .getValue(); 
String prevPasswd = Bytes.toSstring(b); // "Langhornen 


每 次 你 在 单元 上 执行 操作 ，HBase 都 隐 式 地 存储 一 个 新 时 间 版 本 。 
单元 的 新 建 、 修 改 和 删除 都 会 同样 处 理 ， 它 们 都 会 留 下 新 时 间 版 本 。 
Get 请 求 根据 提供 的 参数 调 出 相应 的 版 本 。 时 间 版 本 是 访问 特定 单元 时 
的 最 后 一 个 坐标 。 当 没有 设 定时 间 版 本 时 ，HBase 以 寞 秒 为 单位 使 用 当 
前 时 间 2 ， 所 以 版 本 数字 用 长 整 型 long 表 示 。HBase 默 认 只 存储 3 个 版 
本 ， 这 可 以 基于 列 族 来 设置 。 单 元 里 数据 的 每 个 版 本 提交 一 个 KeyValue 
实例 给 Result。 你 可 以 使 用 方法 getTimestamp() 来 获取 KeyValue 实 例 的 版 
本 信息 : 


long version = 








passwords .get (0) .getTimestamp(); // 1329088818321 
如 果 一 个 单元 的 版 本 超过 了 最 大 数量 ， 多 出 的 记录 在 下 一 次 大 合并 
时 会 扔 掉 。 


除了 删除 整个 单元 ， 你 也 可 以 删除 一 个 或 几 个 特定 的 版 本 。 之 前 提 
到 的 方法 deleteColumns()( 带 s〉 处 理 小 于 指定 时 间 版 本 的 所 有 
KeyValue。 不 指定 时 间 版 本 时 ， 默 认 使 用 当前 时 间 now。 方 法 
deleteColumnO 只 删除 一 个 指定 版 本 。 小 心 你 调用 的 方法 ， 它 们 的 调用 
方式 相似 ， 含 义 略 有 不 同 。 


2.2.9 数据 模型 


本 节 讨 论 了 很 多 基础 知识 ， 包 括 数据 模型 和 实现 细节 。 现 在 暂停 ， 
复习 一 下 到 目前 为 止 我 们 讨论 了 哪些 东西 。HBase 模 式 里 的 逻辑 实体 如 
下 。 

加 表 (〈table) HBase 用 表 来 组 织 数据 。 表 名 是 字符 串 
(CString) ， 由 可 以 在 文件 系统 路 径 里 使 用 的 字符 组 成 。 

图 行 (row) 一 一 在 表 里 ， 数 据 按 行 存储 。 行 由 行 键 (rowkey) 唯 
一 标识 。 行 键 没有 数据 类 型 ， 总 是 视 为 字 市 数组 byte[]。 

加 列 族 (column family) 一 一 行 里 的 数据 按照 列 族 分 组 ， 列 族 也 影 
啊 到 HBase 数 据 的 物理 存放 。 因 此 ， 它 们 必须 事前 定义 并 且 不 轻易 修 
改 。 表 中 每 行 拥有 相同 列 族 ， 尽 管 行 不 需要 在 每 个 列 族 里 存储 数据 。 列 
族 名 字 是 字符 串 〈String) ， 由 可 以 在 文件 系统 路 径 里 使 用 的 字符 组 
成 。 

量 列 限 定 符 (column qualifier ) 列 族 里 的 数据 通过 列 限 定 符 或 
列 来 定位 。 列 限定 符 不 必 事 前 定义 。 列 限定 符 不 必 在 不 同行 之 间 保 持 一 
致 。 就 像 行 键 一 样 ， 列 限定 符 没 有 数据 类 型 ， 总 是 视 为 字 节 数组 
bytel]。 

加 单元 (cell) 一 一 行 键 、 列 族 和 列 限定 符 一 起 确定 一 个 单元 。 存 
储 在 单元 里 的 数据 称 为 单元 值 (value) 。 值 也 没有 数据 类 型 ， 总 是 视 为 
字 节 数组 byte[]。 

加 上 时 间 版 本 〈version ) 单元 值 有 时 间 版 本 。 时 间 版 本 用 时 间 惟 
标识 ， 是 一 个 long。 没 有 指定 时 间 版 本 时 ， 当 前 时 间 惟 作为 操作 的 基 
础 。HBase 保 留 单 元 值 时 间 版 本 的 数量 基于 列 族 进行 配置 。 默 认 数 量 是 3 


a 


























上 述 6 个 概念 构成 HBase 的 基础 。 用 户 最 终 看 到 的 是 通过 API 展 现 的 
上 述 6 个 基本 概念 的 迎 辑 视图 ， 它 们 是 对 HBase 物 理 存 放 在 人 硬盘 上 数据 进 
行 管理 的 基石 。 在 学 习 HBase 的 过 程 中 请 牢 牢记 住 这 6 个 概念 。 


HBase 的 每 个 数据 值 使 用 坐标 来 访问 。 一 个 值 的 完整 坐标 包括 行 
键 、 列 族 、 列 限定 符 和 时 间 版 本 。 下 一 节 将 详细 介绍 这 些 坐 标 。 


2.3 数据 坐标 


在 逻辑 数据 模型 里 ， 时 间 版 本 的 数字 也 是 数据 的 坐标 之 一 。 你 可 以 
想象 ， 在 关系 型 数据 库 里 存储 数据 使 用 的 是 二 维 坐 标 系统 ， 先 是 行 后 是 
列 。 照 此 类 推 ，HBase 在 表 里 存 储 数据 使 用 的 是 四 维 坐标 系统 。 

HBase 使 用 的 坐标 依次 是 行 键 、 列 族 、 列 限定 符 和 时 间 版 本 。users 
表 的 坐标 如 图 2-4 所 示 。 


i z OO, password 


上 照 字 序 ef 
TheReal MT Sir Arthur Conan Doyle art@W TheQueensMen.co.uk i abcl23 | 


访 ts1=1329088321289 ts2=1329088818321 





每 个 单元 有 多 个 时 间 版 本 ， 通 常 由 
它们 被 插入 到 表 中 的 时 间 蕉 来 代表 (ts2>ts1) 
图 2-4 HBase 表 里 用 来 识别 数据 的 坐标 是 中 行 键 (rowkey) 、 包 列 
族 (column family) 、@) 列 限定 符 〈column qualifier) 和 外 时 间 版 本 
(version) 
把 所 有 坐标 视 为 一 个 整体 ，HBase 可 以 看 做 是 一 个 键 值 
(keyvalue) 数据 库 。 抽 象 看 逻辑 数据 模型 ， 你 可 以 把 这 组 坐标 看 做 
键 ， 把 单元 数据 看 做 值 〈 见 图 2-5) 。 


[TheRealMT, info, passworld, 1329088818321] 一 一 abcl123 值 


[TheRealMT, info, password, 1329088321289] 一 一 Langhorne 





一 个 KevValue 实 例 

图 2-5 HBase 可 以 认为 是 一 种 键 值 存储 ， 定 位 一 个 单元 的 4 个 坐标 

可 视 为 键 。API 中 KeyValue 类 把 一 个 单元 的 完整 坐标 和 值 本 身 打 包 在 一 
起 

当 使 用 HBase API 检索 数据 时 ， 你 不 需要 提供 全 部 坐标 。 如 有 果 你 在 
Get 命令 中 省 略 了 时 间 版 本 ，HBase 返 回 数据 值 多 个 时 间 版 本 的 映射 集 
合 。HBase 人 允许 你 在 一 次 操作 中 得 到 多 个 数据 ， 它 们 按照 坐标 的 降序 排 
列 。 那 么 你 可 以 把 HBase 看 做 是 这 样 一 种 键 值 数据 库 ， 它 的 数据 值 是 映 
射 集合 或 者 映射 集合 的 集合 。 该 思想 如 图 2-6 所 示 。 





[TheRealMT, info, password, 1329088818321] 一 一 abcl123 
Q@ 首先 是 全 维度 的 坐标 。 


{ 
[TheRealMT, info, password]—» 
} 


@ 去 掉 时 间 版 本 后 ， 你 得 到 一 个 从 时 间 戳 到 值 的 映 


{ 
"email" :; { 
1329088321289 :"samuel@clemens .org" 













1329088818321 :"abcl2W 
1329088321289 :"Langho 













}, 


"name™" : { 
[TheRealMT, info] ———» 1329088321289 :"Mark Twain" 
}, 
"passwdrd: { 
1329088818321 :"abc123"， 
1329088321289 :"Langhorne" 
} 


} 
@ 去 掉 列 限定 符 ， 你 得 到 一 个 从 列 限 定 符 到 上 一 层 映射 的 映射 。 





ino 2 
"email" :; 1 
1329088321289 :"samuel@clemens 


}, 
"name"” : { 
1329088321289 :"Mark Twain" 
[TheRealMT] 一 一 oo }， 


"password" : { 
1329088818321 :"abcl23"， 
1329088321289 :"Langhorne" 
} 


} 
} 


@ 最 后 去 掉 列 族 ， 你 得 到 一 行 ， 一 个 映射 的 映射 。 
图 2-6 HBase 可 视 为 键 值 数据 存储 的 男 一 种 视角 。 单 元 坐标 的 维度 
越 少 ， 对 应 值 的 集合 范围 越 广 
等 本 章 后 面 我 们 介绍 了 HBase 数 据 模 型 再 详细 讨论 这 个 概念 。 


2.4 小 结 


现在 知道 了 如 何 访问 HBase， 让 我 们 在 一 个 实际 例子 中 练习 已 经 学 
到 的 东西 。 首 先 为 User 实 例 定 义 一 个 简单 模型 对 象 ， 如 代码 清单 2-1 所 
不 。 


代码 清单 2-1 User 的 数据 模型 


package HBaseIA.TwitBase.model; 
public abstract class User { 


public String user; 
public String name; 
public String email; 
public String password; 


@Override 
public String toString() { 
return String.format ("<User: %s, %s, %s>", user, name, email),，; 
} 
} 


然后 在 一 个 类 中 封装 所 有 HBase 访 问 操作 。 先 声明 普遍 使 用 的 字 节 
数组 byte[] 常 量 ， 然 后 定义 封装 操作 命令 的 方法 ， 接 下 来 是 User 模 型 的 
公有 接口 和 私有 实现 ， 如 代码 清单 2-2 所 示 。 

代码 清单 2-2 在 UsersDAO.java 里 的 CRUD 操 作 


package HBaseIA.TwitBase.hbase; 省 略 导 入 细节 
A ss we 


public class UsersDAO { 


public static final byte[] TABLE NAME = 
Bytes.toBytes ("users"),; 

public static final byte[] INFO FAM = 
Bytes.toBytes ("info"),; 


private static final byte[] USER COL 
Bytes.toBytes ("user"); 声明 一 次 常用 的 

private static final byte[] NAME COL 字 节 数组 常量 
Bytes.toBytes ("name" ) ; 

private static final byte[] EMAIL COL = 
Bytes.toBytes ("email").,; 

private static final byte[] PASS COL = 
Bytes.toBytes ("password"); 

public static final byte[] TWEETS COL 
BytestoBytes("tweet count"); 





private HTablePool pool; 


public UsersDRAO (HTablepool pool) { 让 调用 环境 来 


thiS.Bo0l 三 POOE; 管理 连接 池 
} 
private static Get mkGet (String user) { = 
Get g = new Get (Bytes.toBytes (user)); 
g.addFamily (INFO_FAM); 使 用 辅助 方法 来 封装 
} return 9g; 常规 工作 
private static Put mkPut (User u) { < 
Put p = new Put (Bytes.toBytes(u.user)); 
p.add (INFO FAM, USER COL, Bytes.toBytes(u.user)); 
p.add (INFO FAM, NAME COL，Bytes .上 oOBytes (u.name) ) ; 
p.add (INFO FAM, EMAIL COL, Bytes.toBytes(u.email)); 
p.add (INFO FAM, PASS COL, Bytes.toBytes(u.password)); 
Feturn PB 
} 
private static Delete mkDel (String user) { < 一 
Delete d = new Delete (Bytes.toBytes (user)); 
return d; 
} 


public void addUser (String user, 
String name, 
String email, 
String password) 
throws IOException { 


HTableInterface users = pool.getTable (TABLE NAME); 


Put p = mkPut (new User (user, name, email, password)); 
users.put (p); 


users.close(); 


} 


public HBaselIA.TwitBase.model .User getUser (String user) 
throws IOException { 
HTableInterface users = pool.getTable (TABLE NAME); 


Get g = mkGet (user); 

Result result = users.get (g); 

if (result.isEmpty()) { 
return null,; 


} 


User u = new User (result),; 
users.close(); 
return u; 


} 


public void deleteUser (String user) throws IOException { 
HTableInterface users = pool.getTable (TABLE NAME); 


Delete d = mkDel (user); 
users.delete(d); 


users.close()，; 





Private static class User 

extends HBaseIA.TwitBase.model .User { 

private User (Result r) { < 于 根据 Result 构造 

this(r.getValue (INFO FAM, USER COL), 

.getValue (INFO_FAM, NAME COL), 
.getValue (INFO FAM, EMAIL COL), 
.getValue (INFO FAM, PASS COL), 
.getValue (INFO FAM, TWEETS COL) == null 
? Bytes.toBytes (0L) 

r.getValue (INFO_FAM, TWEETS COL)); 


1model .User 实例 


H HH HK 


} 


private User (byte [] user, | 
byte [] name, 加 
byte [] email, 
byte [] password, 


byte [] tweetCount) { 
this(Bytes.tostring (user), 


Bytes.tostring (name), 基于 字符 串 和 字 
Bytes.tostring (email), 节 数 组 的 方便 的 
B i ; 汪 到 类 
ytes.tostring (password)) 构造 函数 


this.tweetCount = Bytes.toLong (tweetCount); 


} 


private User (String user, | 

string name, 
String email, 
String password) { | 

this.user = user; 

this.name = name; 

this.email = email,; 

this.password = password; 








最 后 一 部 分 是 main() 方 法 。 让 我 们 新 建 UsersTool 来 简化 HBase 里 
users 表 的 访问 ， 如 代码 清单 2-3 所 示 。 
代码 清单 2-3 访问 users 表 的 命令 行 接 口 ，UsersTool 


package HBaselIA.TwitBase; 
A 省 略 导 和 人 细节 


public class UsersTool { 


public static final String usage = 
KUSGESTOOE 二 和 EGR ws s\n # 
" help - print this message and exit.\n" + 
" add user name email password" + 
" - add a new user.\n" + 
" get user - retrieve a specific user.\n" + 
" list - list all installed users.\n"， 


public static void main(String[] args) 
throws IOException { 


if (args.length == 0 || "help".eduals(args [0])) { 
System.out .println (usage); 
System.exit (0) ; 


} 


HTablePool pool = new HTablePool (); 
UsersDAO dao = new UsersDAO (pool); UsersDAO 把 连接 池 交 由 


if ("get" .equals (args[0])) { 调用 环境 管理 
System.out .println("Getting user " + args [1]) ; 
User u = dao.getUser (args [1] ) ; 
System.out .println(u); 


} 


if ("add".equals(args[0])) { 
System.out .println("Adding user..."); 
dao.addUser (args [1], args[2], args[3], args[4]); 
User u = dao.getUser (args [1]); 
System.out .println("Successfully added user " + u); 


} 


if ("list".equals(args[0])) { 
for(User u : dao.getUsers()) { 
System.out .println(u); 
} 
} 


pool .closeTablePool (UserSsDRAO .TABLE_NRAME) ; 、 
不 要 忘 了 关闭 


剩 下 的 连接 
完成 所 有 代码 后 ， 你 可 以 试 一 试 。 在 本 书 源 代 码 的 根 目录 中 编译 jar 


应 用 : 


$ mvn package 


LINEO] Ser 


[INFO] BUILD SUCCESS 
[INFO] ------- 


[INFO] Total time: 20.467S 
这 会 在 目标 目录 下 生成 文件 twitbase-1.0.0.jar。 
用 UsersTool 往 users 表 中 增加 用 户 Mark 的 信息 很 容易 : 
$ java -cp target/twitbase-1.0.0.jar \ 


HBaseIA.TwitBase.UsersTool \ 
add \ 


TheRealMT \ 
"Mark Twain" \ 
samuel@clemens .org \ 
abc123 
Successfully added user <User: TheRealMT> 


也 可 以 列 出 表 的 内 容 : 


$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.UsersTool \\ 
list 
21:49:30 INFO li .UsersTool:; 
<User: TheRealMT> 
初步 掌握 了 如 何 访问 HBase 之 后 ， 让 我 们 进一步 理解 HBase 中 使 
用 的 逻辑 数据 模型 和 物理 数据 模型 。 


Found 1 users. 


2.5 数据 模型 


正如 你 看 到 的 那样 ，HBase 进 行 数据 建 模 的 方式 和 你 熟 芒 的 关系 型 


数据 库 有 些 不 同 。 关 系 型 数据 库 围绕 表 、 列 和 数据 类 型 一 一 数据 的 形态 
使 用 严格 的 规划。 遵守 这 些 严 格 规则 的 数据 称 为 结构 化 数据 。HBase 设 
计 上 没有 严格 形态 的 数据 。 数 据 记录 可 能 包含 不 一 致 的 列 、 不 确定 大 小 
等 。 这 种 数据 称 为 半 结 构 化 数据 (semistructured data) 。 

在 逻辑 模型 里 针对 结构 化 或 羊 结构 化 数据 的 导 同 影响 了 数据 系统 物 
理 模型 的 设计 。 关 系 型 数据 库 假 定 表 中 的 记录 都 是 结构 化 的 和 高 度 有 规 
律 的 。 因 此 ， 在 物理 实现 时 ， 利 用 这 一 点 相应 优化 人 硬盘 上 的 存放 格式 和 
内 存 里 的 结构 。 同 样 ，HBase 也 会 利用 所 存储 数据 是 半 结 构 化 的 特点 。 
随 着 系统 发 展 ， 物 理 模 型 上 的 不 同 也 会 影响 逻辑 模型 。 因 为 这 种 双 同 紧 
密 的 联系 ， 优 化 数据 系统 必须 深入 理解 逻辑 模型 和 物理 模型 。 

除了 面 同 半 结 构 化 数据 的 特点 外 ，HBase 还 有 男 外 一 个 重要 考虑 因 
素 一 一 可 扩展 性 。 在 半 结 构 化 逻辑 模型 里 数据 构成 是 松 粳 合 的 ， 这 一 点 
有 利于 物理 分 散 存 放 。HBase 的 物理 模型 设计 上 适合 于 物理 分 散 存 放 ， 
这 一 点 也 影响 了 逻辑 模型 。 此 外 ， 这 种 物理 模型 设计 迫使 HBase 放 弃 了 
一 些 关 系 型 数据 库 具 有 的 特性 。 特 别 是 ，HBase 不 能 实施 关系 约束 
Cconstraint) 并 且 不 支持 多 行事 务 (multirow transaction ) 上 。 这 种 关 
系 影响 了 下 面 几 个 主题 。 

















HBase 中 使 用 的 逻辑 数据 模型 有 许多 有 效 的 描述 。 图 2-6 把 这 个 模型 
解释 为 键 值 数据 库 。 我 们 考虑 的 一 种 描述 是 有 序 映 射 的 映射 〈sorted 
map of maps) 。 你 大 概 熟 悉 编 程 语言 里 的 映射 集合 或 者 字典 结构 。 可 以 
把 HBase 看 做 这 种 结构 的 无 限 的 、 实 体 化 的 、 髓 套 的 版 本 。 

我 们 先 来 思考 映射 的 映射 这 个 概念 。HBase 使 用 坐标 系统 来 识别 单 
元 里 的 数据 : [ 行 键 ， 列 族 ， 列 限定 符 ， 时 间 版 本 ]。 例 如 ， 从 users 表 里 
取出 Mark 的 记录 《〈 见 图 2-7) 。 


re 
"TheRealMT™" : 1{ 
列 族 一 一 "info" : 1 
"email™" ; 1 
1329088321289 : "samuel@clemens .org" 
}, 
列 限定 符 "name™" : 1 


1329088321289 : "Mark Twain" 
}, 








"password"” : 
1329088818321 \: "abcl23", 
1329088321289 "Langhorne" 
} 

} 时 间 版 本 


} 
图 2-7 有 序 映 射 的 映射 。HBase 多 辑 上 把 数据 组 织 成 能 套 的 映射 的 
映射 。 每 层 映 射 集合 里 ， 数 据 按照 映射 集合 的 键 字典 序 排序 。 本 例 
中 ，"email" 排 在 "name" 前 面 ， 最 新 时 间 版 本 排 在 稍 晚 时 间 版 本 前 面 。 
理解 映射 的 映射 的 概念 时 ， 把 这 些 坐 标 从 里 往外 看 。 你 可 以 想象 ， 
开始 以 时 间 版 本 为 键 、 数 据 为 值 建 立 单元 映射 ， 往 上 一 层 以 列 限 定 符 为 
键 、 单 元 映射 为 值 建 立 列 族 映 射 ， 最 后 以 行 键 为 键 列 族 映 射 为 值 建 立 表 
映射 。 这 个 庞然大物 用 Java 摘 述 是 这 样 的 ， Map<RowKey, 
Map<ColumnFamily, Map<ColumnQualifier, Map<Version, Data>>>>。 不 
算 漂 完 ， 但 是 简单 易 懂 。 

注意 我 们 说 映射 的 映射 是 有 序 的 。 上 述 例 子 只 显示 了 一 条 记录 ， 即 
使 如 此 也 可 以 看 到 顺序 。 注 意 password 单 元 有 两 个 时 间 版 本 。 最 新 时 间 
版 本 排 在 稍 晚 时 间 版 本 之 前 。HBase 按 照 时 间 惟 降序 排列 各 时 间 版 本 ， 
所 以 最 新 数据 总 是 在 最 前 面 。 这 种 物理 设计 明显 导致 可 以 快速 访问 最 新 














时 间 版 本 。 其 他 的 映射 键 按照 升序 排列 。 现 在 的 例子 看 不 到 这 一 点 ， 让 
我 们 插入 几 行 记录 看 看 是 什么 样子 : 
$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.UsersTool \ 
add \ 
HMS _ Surprise \ 
"patrick O'Brian" \ 
aubrey@sea.com \ 
abc123 
Successfully added user <User: HMS Surprise> 





$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.UsersTool \ 
add \ 
GrandpaD \ 
"Fyodor Dostoyevsky" \ 


fyodor@brothers.net \ 
abc123 
Successfully added user <User: GrandpaD> 


$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.UsersTool \ 
add \ 
SirDoyle \ 
"Sir Arthur Conan Doyle" \ 
art@TheQueensMen.co.uk \ 
abc123 

Successfully added user <User: SirDoyle> 


现在 再 次 列 出 Users 表 的 内 容 ， 可 以 看 到 : 


$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.UsersTool \ 
LS 上 

21:54:27 INFO TwitBase.UsersTool: Found 4 users. 

<User: GrandpaD> 

<User: HMS Surprise> 

<User: SirDoyle> 

<User: TheRealMT> 


实践 中 ， 设 计 HBase 表 模式 时 这 种 排序 设计 是 一 个 关键 考虑 因素 。 
这 是 力 外 一 个 物理 数据 模型 影响 人 逻辑 模型 的 地 方 。 掌 握 这 些 细 市 可 以 大 
助 你 在 设计 模式 时 利用 这 个 特性 。 





就 像 关 系 型 数据 库 一 样 ，HBase 中 的 表 由 行 和 列 组 成 。HBase 中 列 
按照 列 族 分 组 。 这 种 分 组 表现 在 映射 的 映射 逻辑 模型 中 是 其 中 一 个 层 
次 。 列 族 也 表现 在 物理 模型 中 。 每 个 列 族 在 硬盘 上 有 自己 的 HFile 集 
合 。 这 种 物理 上 的 隔离 允许 在 列 族 底 层 HFile 层 面 上 分 别 进行 管理 。 进 
一 步 考虑 到 合并 ， 每 个 列 族 的 HFile 都 是 独立 管理 的 。 

HBase 的 记录 按照 键 值 对 存储 在 HFile 里 。HFile 自 身 是 二 进 制 文 
件 ， 不 是 直接 可 读 的 。 存 储 在 人 硬盘 上 HFile 里 的 Mark 用 户 数 据 如 图 2-8 所 
示 。 注 意 ， 在 HFile 里 Mark 这 一 行使 用 了 多 条 记录 。 每 个 列 限定 符 和 时 
间 版 本 有 自己 的 记录 。 另 外 ， 文 件 里 没有 空 记 录 (null) 。 如 果 没 有 数 
据 ，HBase 不 会 存储 任何 东西 。 因 此 列 族 的 存储 是 面向 列 的 ， 就 像 其 他 
列 式 数 据 库 一 样 。 一 行 中 一 个 列 族 的 数据 不 一 定 存 放 在 同一 个 HFile 
里 。Mark 的 info 数 据 可 能 分 散在 多 个 HFile 里 。 唯 一 的 要 求 是 ， 一 行 中 列 
族 的 数据 需要 物理 存放 在 一 起 。 




















"TheRealMT", " "email", 1329088321289, "samuel@clemens .org" 





"TheRealMT", " ", "name", 1329088321289, "Mark Twain" 
"TheRealMT", " ", "password", 1329088818321, "abc123", 
"TheRealMT", " "+ "password ， 1329088321289, "Langhorne" 
图 2-8 对 应 users 表 info 列 族 的 HFile 数 据 。 每 条 记录 在 HFile 里 是 完整 
的 


如 果 users 表 有 了 男 一 个 列 族 ， 并 且 Mark 在 那些 列 里 有 数据 。Mark 
的 行 也 会 在 那些 HFile 里 有 数据 。 每 个 列 族 使 用 自己 的 HFile 意 味 着 ， 妆 
执行 读 操 作 时 HBase 不 需要 读 出 一 行 中 所 有 的 数据 ， 只 需要 读 取 用 到 列 
族 的 数据 。 面 同 列 意味 着 当 检 索 指 定单 元 时 ，HBase 不 需要 读 占 位 符 

(placeholder) 记录 。 这 两 个 物理 细节 有 利于 稀 玻 数据 集合 的 高 效 存储 
和 快速 读 取 。 

让 我 们 增加 另外 一 个 列 族 到 users 表 ， 以 存储 TwitBase 网 站 上 的 活 
动 ， 这 会 生成 多 个 HFile。 让 HBase 管 理 整 行 的 一 整套 工具 如 图 2-9 所 
示 。HBase 称 这 种 机 制 为 region， 我 们 下 一 章 会 讨论 。 


region (users) 


列 族 (info) 列 族 (activity) 





图 2-9 users 表 的 一 个 region。 表 中 某 行 的 所 有 数据 在 一 个 region 里 管 
理 


在 图 2-9 中 可 以 看 到 ， 访 问 不 同 列 族 的 数据 涉及 完全 不 同 的 
MemSstore 和 HEFile。 列 族 activity 数 据 的 增长 并 不 影响 列 族 info 的 性 能 


2.6 贡 


你 可 能 发 现 ， 没 有 查询 (guery) 命令 。 到 目前 为 止 ， 你 都 找 不 到 
这 样 的 命令 。 碍 找 包含 某 个 特定 值 的 记录 的 唯一 办 法 是 ， 使 用 扫 质 
《Scan) 命令 读 出 表 的 某 些 部 分 ， 然 后 再 使 用 过 滤器 (filter) 来 得 到 有 
关 记 录 。 可 以 想到 ， 扫 描 返 回 的 记录 是 排 好 序 的 。HBase 设 计 上 文 持 这 
种 方式 ， 因 此 速度 很 快 。 

要 扫 摘 得 到 整个 表 的 内 容 ， 单 独 使 用 Scan 构造 函数 即 可 : 

Scan s = new Scan () ; 

但 是 ， 你 经 常 只 对 整 张 表 的 一 个 子 集 感 兴趣 。 比 如 ， 你 想得到 所 有 
以 字母 TI 开头 的 呈 的 用 户 。 给 Scan 构造 函数 增加 起 始 行 和 结束 行 的 信息 
即 可 : 








Scan S = new Scanl 
Bytes.toBytes("T"), 
Bytes.toBytes ("U'" ) ) ; 

这 个 例子 也 许 有 些 牵 强 ， 但 可 以 帮助 你 理解 。 一 个 实战 的 例子 是 什 
么 样 呢 ? 假设 你 存储 了 推 帖 ， 你 一 定 想 进一步 了 解 某 个 特定 用 户 的 最 新 
推 帖 。 让 我 们 开始 实现 这 一 点 
2.6.1 设 昔 毕 

就 像 设计 关系 模式 一 样 ， 为 HBase 表 设 计 模 式 (Schema) 也 需要 
考虑 数据 形态 和 访问 模式 。 人 因此 我 们 
为 它们 新 建 自己 的 表 。 为 了 练 手 ， 这 里 使 用 Java API 而 不 是 Shel 来 新 建 
- 

可 以 使 用 HBaseAdmin 对 象 的 一 个 实例 来 执行 表 的 操作 : 


Configuration conf = HBaseConfiguration.create () ; 
HBaseAdmin admin = new HBaseAdmin(conft) ; 


创建 HBaseAdmin 实 例 显 然 需要 一 个 Configuration 实 例 ， 默 认 的 
HTable 和 HTablePool 构 造 函 数 帮 你 隐藏 细节 。 这 一 步 很 简单 。 现 在 你 可 
以 定义 一 个 新 表 并 且 创建 它 : 

HTableDescriptor desc = new HTableDescriptor("twits"),; 
HColumnDescriptor c = new HColumnDescriptor ("twits").; 
c.setMaxVersions (1); 


desc.addFamily(c); 
admin .createTable(dqesc) ; 


HTableDescriptor 对 象 建立 新 表 的 描述 信息 ， 其 名 字 是 twits。 同 
样 ， 使 用 HColumnDescriptor 建 立 列 族 ， 名 字 也 是 twits。 和 users 表 一 样 ， 
这 里 只 需要 一 个 列 族 。 你 不 需要 推 帖 的 多 个 时 间 版 本 ， 所 以 限定 保留 的 
版 本 数 为 一 个 。 

现在 可 以 开始 存储 推 帖 到 这 个 有 趣 的 新 twits 表 。 推 帖 包含 内 容 和 
发 布 的 日 期 和 时 间 每 。 你 需要 一 个 唯一 值 作为 行 键 ， 所 以 我 们 选择 用 户 
名 加 上 时 间 惟 来 做 行 键 。 很 简单 ， 我 们 存储 一 些 推 帖 ， 如 下 所 示 : 
Put put = new Put( 

Bytes.toBytes ("TheRealMT" + 1329088818321L)); 


put .add ( 


Bytes.toBytes ("twits"), 
Bytes.toBytes ("dt"), 


Bytes .二 Bytes (1329088818321L) ) ; 
put . add ( 

Bytes.toBytes ("twits"), 

Bytes.toBytes ("twit"), 

Bytes.toBytes ("Hello, TwitBase!")); 


好 了 ， 基 本 如 此 。 首 先 请 注意 ， 用 户 ID 是 个 变 长 字符 串 。 当 你 使 
用 复合 行 键 时 这 会 带 来 一 些 肝 烦 ， 因 为 你 需要 茶 种 分 隔 符 来 切 分 出 用 户 











ID。 一 种 变通 的 办 法 是 对 行 键 的 变 长 类 型 部 分 做 散 列 〈hash) 处 理 。 选 
择 一 种 散 列 算法 生成 固定 长 度 的 值 。 因 为 你 想 基于 用 户 分 组 存储 不 同 用 
户 的 推 帖 ，MD5 算法 是 一 种 好 选择 。 这 些 组 按 序 存储 。 在 组 内 ， 推 帖 
是 基于 发 布 日 期 时 间 先 后 顺序 存储 的 。MD5 是 一 种 单 向 散 列 算法 ， 所 
以 不 要 忘 了 把 未 经 编码 处 理 的 用 户 ID 另外 存储 在 一 个 列 里 ， 以 防 后 面 用 
到 。 如 下 所 示 ， 向 twits 表 中 写 入 数据 。 

int longLength = Long.SIZE / 8; 

byte [] userHash = Md5Utils.md5sum("TheRealMT"),，; 


byte [] timestamp = Bytes .toBytes (-1 * 1329088818321L); 


byte [] rowKey = new byte [Mada5Uti1ls.MD5_LENGTH + longLength]; 
int offset = 0; 


offset = Bytes.putBytes (rowKey, offset, userHash, 0, 
Bytes.putBytes (rowKey, offset, timestamp, 0, 
Put put = new Put (rowKey); 
put .add( 

Bytes.toBytes ("twits"), 

Bytes .toBytes ("user"), 

Bytes.toBytes ("TheRealLMT'" ) ; 
put .add( 

Bytes.toBytes ("twits"), 

Bytes.toBytes ("twit"), 

Bytes.toBytes ("Hello, TwitBase!)); 


一 般 来 说 ， 你 会 先 用 到 最 新 推 帖 。HBase 在 物理 数据 模型 里 按照 行 
键 顺 序 存储 行 。 你 可 以 利用 这 个 特性 。 在 行 键 里 包括 推 帖 的 时 间 戳 ， 并 
且 乘 以 -1， 就 可 以 先 得 到 最 新 的 推 帖 。 

在 HBase 模 式 中 行 键 设 计 至 关 重 要 

这 一 点 如 何 强 调 都 不 为 过 : HBase 的 行 键 在 设计 表 时 是 第 一 重要 的 
考量 因素 。 我 们 会 在 第 4 章 进一步 讨论 。 我 们 现在 提 到 它 是 为 了 让 你 在 
学 习 例 子 时 脑子 里 有 个 概念 。 当 你 看 到 HBase 模 式 时 第 一 个 应 该 问 自 己 
的 问题 是 :“ 行 键 是 什么 ? ”下 一 个 问题 是 : “我 可 以 怎样 让 行 键 更 有 效 
率 ? ” 





USeLrHash.LIength) ; 
timestamp.length); 





2.6.2 执行 扫 摘 


使 用 用 户 ID 作为 twits 表 行 键 的 第 一 部 分 证 明 是 好 办 法 。 它 可 以 基于 


用 户 以 上 自然 行 的 顺序 有 效 地 生成 数据 桶 〈bucket) 。 来 自 同一 用 户 的 数 
据 以 连续 行 的 形式 存储 在 一 起 。 现 在 Scan 命令 如 何 使 用 呢 ? 或 多 或 少 和 
之 前 介绍 的 类 似 ， 只 是 计算 停止 键 时 复杂 一 点 : 

byte [] userHash = Md5Utils.md5sum(user); 

byte [] startRow = Bytes.padTail (userHash, longLength); // 212d...866f00... 
byte [] stopRow = Bytes.padTail (userHash, longLength); 

stopRow [Md5Utils.MDS5 LENGTH-1]++; Wf STOU. STO 


Scan s = new Scan(startRow, stopRow); 
ResultsScanner rs = twits.getScanner(s); 


本 例 中 ， 你 可 以 通过 对 行 键 中 用 户 ID 部 分 的 最 后 字符 加 1 来 生成 停 
目 键 。 扫 摘 器 返回 包括 起 始 键 但 是 不 包括 停止 键 的 记录 ， 因 此 你 只 得 到 
了 匹配 用 户 的 推 帖 。 

再 通过 一 个 简单 的 循环 从 ResultScanner 中 读 出 推 帖 : 
for(Result r : rs) { 

// extract the username 

byte[] b = r.getValue!( 

Bytes.toBytes ("twits"), 
Bytes.toBytes ("user")); 

String user = Bytes.toString(b) ; 

// extract the twit 

b = .getValue ( 

Bytes.toBytes ("twits"), 
Bytes.toBytes ("twit")); 

String message = Bytes.toString(b) ; 

// extract the timestamp 

b = Arrays .copyOfRangel! 

r.getRow(), 
Md5Utils.MDS LENGTH, 
Md5Utils.MD5 LENGTH + longLength).; 
DateTime dt = new DateTime(-1 * Bytes.toLong(b)); 


循环 中 唯一 需要 处 理 的 是 分 离 出 时 间 戳 ， 并 且 把 字 节 数组 byte[] 转 
换 成 合适 的 数据 类 型 。 你 会 得 到 如 下 数据 : 


<Twit: TheRealMT 2012-02-20T00:13:27.931-08:00 Hello, TwitBase!> 


2.6.3 组 


在 HBase 的 设置 里 扫描 每 次 RPC 调 用 得 到 一 批 行 数据 。 这 可 以 在 扫 
描 对 象 上 使 用 setCaching(int) 在 每 个 扫描 器 (scanner) 层次 上 设置 ， 也 
可 以 在 hbasesite.xml 配置 文件 里 使 用 HBase.client.scanner.caching 属 性 来 
设置 。 如 果 绥 存 值 设置 为 n， 每 次 RPC 调 用 扫描 器 返回 n 行 ， 然 后 这 些 数 
据 绥 存 在 客户 端 。 这 个 设置 的 默认 值 是 1， 这 意味 着 客户 端 对 HBase 的 每 
次 RPC 调 用 在 扫描 整 张 表 后 仅仅 返回 一 行 。 这 个 数字 很 保守 ， 你 可 以 调 
整 它 以 获得 更 好 的 性 能 。 但 是 该 值 设 置 过 高 意味 着 客户 端 和 HBase 的 交 
互 会 出 现 较 长 暂停 ， 这 会 导致 HBase 闹 的 超时 。 

ResultScanner 接 口 也 有 一 个 next(int) 调 用 ， 你 可 以 用 来 要 求 返 回 扫 
描 的 下 面 n 行 。 这 是 在 API 层 面 提供 的 便利 ， 与 为 了 获得 那 n 行 数据 客户 
端 对 HBase 的 RPC 调 用 次 数 无 关 。 

在 内 部 机 制 中 ，ResultScanner 使 用 了 多 次 RPC 调 用 来 满足 这 个 请 
求 ， 每 次 RPC 调 用 返回 的 行 数 只 取决 于 你 为 扫描 器 设置 的 绥 存 值 。 

2.6.4 过 滤器 


并 不 总 能 设计 一 个 行 键 来 完美 地 匹配 你 的 访问 模式 。 有 时 你 的 使 用 
场景 需要 扫描 HBase 的 一 组 数据 但 是 只 返回 它 的 子 集 给 客户 端 。 这 时 需 
要 使 用 过 滤器 (filter) 。 为 你 的 Scan 对 象 增 加 过 滤器 ， 如 下 所 示 : 

FT]tex 下 活 
Scan s = new Scan(); 
s.setFilter(f); 


过 滤器 是 在 HBase 服 务 器 端 上 而 不 是 在 客户 端 执行 判断 动作 。 当 你 
在 Scan 里 设 定 Filter 时 ，HBase 使 用 它 来 决定 一 个 记录 是 否 返 回 。 这 样 避 
免 了 许多 不 必要 的 数据 传输 。 这 个 特性 在 服务 器 上 执行 过 泪 动 作 而 不 是 
把 负担 放 在 客户 端 。 



































使 用 过 滤器 需要 实现 org.apache.hadoop.hbase.filter.filter 接口 。 
HBase 提 供 了 许多 种 过 滤器 ， 但 实现 你 自己 的 过 滤器 也 很 容易 。 

为 了 过 滤 所 有 提 到 TwitBase 的 推 帖 ， 你 可 以 结合 
RegexStringComparator 使 用 ValueFilter: 


Scan s = new Scan() ; 
s.addColumn (Bytes.toBytes ("twits"), Bytes.toByes ("twit")).,; 
Filter f = new ValueFilter!( 

CompareOp .EQUAL, 

new RegexStringComparator(".*TwitBase.*")),; 
s.setFilter(f); 


HBase 也 提供 了 一 个 过 滤器 构造 类 。ParseFilter 对 象 实现 了 一 种 查询 
语言 ， 可 以 用 来 构造 Filter 实例 。 可 以 用 一 个 表达 式 构造 同样 的 
TwitBase 过 滤器 : 


Scan s = new Scan(); 

s.addColumn (TWITS FAM, TWIT COL); 

String expression = "ValueFilter(=, 'regexString:.*TwitBase.*')",; 
ParseFilter p = new ParseFilter(); 

Filter f = p.parseSimpleFilterExpression(Bytes.toBytes (expression)); 
s.setrFilter(f); 


这 两 个 例子 中 ， 数 据 在 到 达 客 户 端 之 前 在 region 中 编译 和 使 用 了 正 
则 表达 式 。 

上 面 是 一 个 在 应 用 中 使 用 过 滤器 的 简单 例子 。HBase 中 过 滤器 可 以 
应 用 到 行 键 、 列 限定 符 或 者 数据 值 。 你 也 可 以 使 用 FilterList 和 
WhileMatchFilter 对 象 组 合 多 个 过 滤器 。 过 滤器 允许 对 数据 分 页 处 理 ， 限 
制 扫描 器 返回 的 行 数 。 我 们 将 在 第 4 章 深 入 讨论 组 合 型 过 滤器 (bundled 
filter) 。 


2.7 尿 于 寺 


HBase 操作 库 里 的 最 后 一 个 命令 是 列 值 递增 (Increment Column 
Value) 。 它 有 两 种 使 用 方式 ， 像 其 他 命令 那样 使 用 Increment 命 令 对 


象 ， 或 者 作为 HTableInterface 的 一 个 方法 来 使 用 。 我 们 使 用 
HTableInterface 的 方式 ， 因 为 语义 更 直观 。 我 们 使 用 它 来 保存 每 个 用 户 
发 布 推 帖 的 总 数 ， 如 下 所 示 : 
long ret = USerSsTable.incrementColumnValue 
Bytes.toBytes ("TheRealMT"), 
Bytes.toBytes ("info"), 


Bytes.toBytes ("tweet count"), 
二 


该 命令 不 用 先 读 出 HBase 单 元 就 可 以 改变 存储 其 中 的 值 。 数 据 操作 
发 生 在 HBase 服 务 器 上 ， 而 不 是 在 你 的 客户 端 ， 所 以 速度 快 。 当 其 他 客 
户 并 也 在 访问 同一 个 单元 时 ， 这 样 避免 了 出 现 亲 乱 状态 。 你 可 以 把 
ICV 〈IncrementColumnValue) 等 同 于 Java 的 AtomicLong.addAndGet() 方 
法 。 递 增值 可 以 是 任何 JavaLong 类 型 值 ， 无 论 正 负 。 我 们 将 在 下 一 节 深 
入 讨论 原子 性 操作 。 

也 请 注意 这 个 数据 不 是 存储 在 twits 表 而 是 users 表 中 。 存 在 users 表 的 
原因 是 不 希望 这 个 信息 成 为 扫描 的 一 部 分 。 存 在 twits 表 里 会 让 常用 的 访 
问 模式 很 不 方便 。 

就 像 Java 的 原子 类 族 ，HTableInterface 也 提供 checkAndPutO0 和 
check AndDelete() 方 法 。 它 们 可 以 在 维持 原子 语义 的 同时 提供 更 精细 地 
控制 。 你 可 以 用 checkAndPut() 来 实现 incrementColumnValue() 方 法 : 








Get 9 = new Get (Bytes.toBytes ("TheRealMT")).,， 
Result r = usersTable .get (g); 
long curVal = Bytes.toLongl 
r.getColumnLatest( 
Bytes.toBytes ("info"), 
Bytes.toBytes("tweet count")) getValue()); 
Long LincVal = CurVal + 1 
Put p = new Put (Bytes.toBytes ("TheRealMT")).，; 
p.addl 
Bytes.toBytes ("info"), 
Bytes.toBytes ("tweet count"), 
Bytes.toBytes (IncVal) ) ; 
USezSTable .checkaAndPut ( 
Bytes.toBytes ("TheRealMT"), 
Bytes.toBytes ("info"), 
Bytes.toBytes ("tweet count"), 
Bytes .toBytes (curVal), 
p); 
该 实现 有 点 长 ， 但 可 以 试 试 。 使 用 checkAndDelete() 的 方式 与 此 类 
似 。 
按照 和 前 面相 同 的 方式 ， 你 可 以 轻松 地 新 建 TwitsTool 表 。 模 型 、 
DAO 和 命令 行 实现 和 前 面 users 表 的 情况 类 似 。 本 书 附 帝 的 源 代 码 提 供 
了 一 个 实现 。 





2.8 ACID 语义 


如 果 使 用 过 数据 库 系 统 ， 你 会 听 说 过 各 种 数据 库 系 统 提 供 的 ACID 
语义 。ACID 是 当 你 搭建 使 用 数据 库 系 统 做 存储 的 应 用 系统 时 需要 掌握 
的 一 组 要 素 。 当 应 用 系统 访问 承载 它 的 数据 库 时 ， 尊 循 这 些 要 系 可 以 使 


应 用 系统 的 行为 更 加 合理 。 为 简单 起 见 ， 让 我 们 再 次 定义 ACID。 记 
住 ，ACID 不 同 于 之 前 我 们 简要 介绍 过 的 CAP。 

加 Atomicity (原子 性 ) 原子 性 是 指 原子 不 可 分 的 操作 属性 ， 换 
名 话说， 要 么 全 部 完成 ， 要 么 全 部 不 完成 。 如 果 操 作成 功 ， 整 个 操作 成 
功 。 如 果 操 作 失 败 ， 整 个 操作 失败 ， 系 统 会 回 深 到 操作 开始 前 的 状态 ， 
就 像 这 个 操作 从 来 没有 执行 过 一 样 。 








加 COnsistency〈 一 致 性 ) 一 一 一 致 性 是 指 把 系统 从 一 个 有 效 状 态 带 
入 另 一 个 有 效 状 态 的 操作 属性 。 如 果 操 作 使 系统 出 现 不 一 致 ， 操 作 不 会 
被 执行 或 者 被 回 退 。 








四 Isolation (隔离 性 ) 隔离 性 意味 着 两 个 操作 的 执行 是 互 不 干 
扰 的 。 例 如 ， 同 时 在 一 个 对 象 上 不 会 出 现 两 个 写 动 作 。 写 动作 会 一 个 接 
一 个 发 生 ， 而 不 会 同时 发 生 。 

@ Durability (持久 性 ) 一 一 持久 性 是 我 们 早 前 谈论 过 的 。 它 意味 
着 数据 一 旦 写 入 ， 确 保 可 以 读 回 并 且 不 会 在 系统 正常 操作 一 段 时 间 后 丢 
大 


2.9 小 结 


为 了 避免 漏 掉 学 习 内 容 ， 这 里 快速 概括 一 下 本 章 讲 过 的 内 容 。 

HBase 是 一 种 专门 为 半 结 构 化 数据 〈semistructured) 和 水 平 可 扩展 
性 (horizontal scalability) 设计 的 数据 库 。 它 把 数据 存储 在 表 里 。 在 表 
里 ， 数 据 按照 一 个 四 维 坐标 系统 来 组 织 : 行 键 、 列 族 、 列 限定 符 和 时 间 
版 本 。HBase 是 无 模式 数据 库 ， 只 需要 提前 定义 列 族 。 它 也 是 无 类 型 数 
据 库 ， 把 所 有 数据 不 加 解释 地 按照 字 节 数组 存储 。 有 5 个 基本 命令 用 来 
访问 HBase 中 的 数据 ， 即 Get、Put、Delete、Scan 和 Increment。 基 于 非 行 
键 值 查 询 HBase 的 唯一 办 法 是 通过 带 过 滤器 的 扫描 。 

HBase 不 是 一 个 ACID 兼容 数据 库 区 | 














HBase 不 是 一 个 ACID 兼容 数据 库 。 但 是 HBase 提 供 一 些 保证 ， 当 你 
的 应 用 系统 访问 HBase 系 统 时 ， 你 可 以 用 其 来 使 你 的 应 用 系统 的 行为 更 
加 合理 。 这 些 保 证 具体 如 下 。 

1. 操作 是 低级 原子 不 可 分 的 。 换 名 话说， 给 定 行 上 的 Put() 要 么 整 
体 成 功 要 么 整体 失败 回 到 操作 开始 前 的 状态 ， 永 远 不 会 部 分 行 号 入 而 另 
一 部 分 没有 。 这 个 要 素 和 操作 执行 的 列 族 的 数量 无 关 。 

2. 行 间 操作 不 是 原子 性 的 。 不 能 保证 所 有 操作 整体 成 功 或 者 失 
败 。 所 有 单行 操作 如 上 一 点 所 述 是 原子 性 的 。 

3. checkAnd* 和 increment* 操 作 是 原子 不 可 分 的 。 

4. 对 于 给 定 行 的 多 个 写 操作 ， 总 是 以 每 个 写 操作 为 整体 彼此 独立 
的 。 这 是 第 一 点 的 延伸 。 

5. 对 于 给 定 行 的 任何 GetO 操 作 ， 返 回 系统 当时 所 保存 的 完整 行 。 

6. 全 表 扫 描 不 是 对 某 个 时 间 点 表 的 快照 的 扫描 。 如 果 扫 描 已 经 开 
始 ， 但 是 在 行 R 被 扫描 器 对 象 读 出 之 前 ， 行 R 被 改变 了 了， 那么 扫描 器 读 
出 行 R 更 新 后 的 版 本 。 但 是 扫描 器 读 出 的 数据 是 一 致 的 ， 得 到 行 R 更 新 
后 的 完整 行 。 

当 你 搭建 使 用 HBase 的 应 用 系统 时 ， 这 些 背 景 信息 是 你 需要 注意 的 














数据 模型 从 逻辑 上 可 以 分 类 为 键 值 存储 或 者 是 有 序 映 射 的 映射 。 物 
理 数据 模型 是 基于 列 族 的 列 式 数据 库 ， 单 个 记录 以 键 值 形式 存储 。 
HBase 把 数据 记录 保存 在 HFile 里 ， 这 是 一 种 不 能 更 改 的 文件 格式 。 因 为 
记录 一 旦 写 入 束 不 能 修改 ， 新 值 将 保存 在 新 HFile 里 。 在 读 取 数据 和 数 
据 合并 时 ， 数 据 视 图 需要 在 内 存 中 重新 衔接 。 

HBase Java API 通过 HTableInterface 来 使 用 表 。 表 连接 可 以 直接 通 
过 构造 HTable 实 例 来 建立 。 使 用 HTable 实 例 系统 开销 大 ， 优 选 方式 是 使 
用 HTablePool， 因 为 它 可 以 重复 使 用 连接 。 表 通过 HbaseAdmin、 
HTableDescriptor 和 HColumnDescriptor 类 的 实例 来 新 建 和 操作 。5 个 命令 




















通过 相应 的 命令 对 象 来 使 用 : Get、Put、Delete、Scan 和 Increment。 命 
令 送 到 HtableInterface 实 例 来 执行 。 递 增 Increment 有 另外 一 种 用 法 ， 使 
用 HTableInterface.increment ColumnValue() 方 法 。 执 行 Get、Scan 和 
Increment 命令 的 结果 返回 到 Result 和 ResultScanner 对 象 的 实例 。 一 个 
KeyValue 实 例 代 表 一 条 返回 记录 。 所 有 这 些 操作 也 可 以 通过 HBase Shell 
以 命令 行 方式 执行 。 

预期 的 数据 访问 模式 对 HBase 的 模式 设计 有 很 大 的 影响 。 理 想 情 况 
下 ，HBase 中 的 表 根 据 预期 的 模式 来 组 织 。 行 键 是 HBase 中 唯一 的 全 局 
索引 坐标 ， 因 此 碍 询 经 癌 通 过 行 键 扫 拉 实现。 复合 行 键 是 文 持 这 种 扫描 
的 第 见 做 法 。 行 键 值 经 常 希望 是 均衡 分 布 的 。 诸 如 MD5 或 SHA1 等 散 列 
算法 通常 用 来 实现 这 种 均衡 分 布 。 























第 3 章 分 布 式 的 HBase、HDEFS 和 
MapReduce 


本 章 涵 兰 的 内 容 

加 作为 分 布 式 存储 系统 的 HBase 

量 何 时 使 用 MapReduce 而 不 是 键 值 API 

四 MapReduce 概念 和 工作 流程 

加 如 何 为 HBase 编 写 MapReduce 应 用 

量 如 何在 HBase 上 使 用 MapReduce 完成 map 侧 联结 

四 在 HBase 上 使 用 MapReduce 的 示例 

你 已 经 知道 HBase 建 立 在 Apache Hadoop 上 面 ， 但 你 可 能 还 不 清楚 为 
什么 如 此 设计 。 对 于 应 用 开发 人 员 来 说 ， 最 重要 的 是 这 可 以 珊 来 什么 好 
处 呢 ? HBase 在 两 个 方面 依赖 Hadoop。Hadoop MapReduce 提供 了 分 布 
式 计 算 框 架 ， 文 持 高 否 吐 量 数据 访问 。Hadoop 分 布 式 文件 系统 

(HDFS) 作为 HBase 的 存储 层 ， 文 持 可 用 性 〈availability) 和 可 靠 性 
Creliability) 。 在 本 章 你 会 看 到 TwitBase 如 何 利 用 这 种 大 规模 计算 的 数 

据 访 问 能 力 ， 以 及 HBase 如 何 使 用 HDFS 来 保证 可 用 性 和 可 靠 性 。 

本 章 开 始 ， 我 们 将 告诉 你 为 什么 MapReduce 是 在 HBase 中 处 理 数 据 
的 另 一 种 有 价值 的 访问 模式 。 然 后 我 们 将 概述 Hadoop MapReduce。 禹 
着 这 些 知 识 ， 我 们 将 学 习作 为 一 种 分 布 式 系统 的 HBase。 我 们 将 问 你 展 
示 如 何在 HBase 中 使 用 MapReduce 作 业 ， 给 你 传授 在 HBase 中 使 用 
MapReduce 的 一 些 有 用 的 技巧 。 最 后 我 们 将 问 你 展示 HBase 如 何 为 你 的 
数据 提供 可 用 性 、 可 靠 性 和 持久 化 。 如 果 你 是 一 个 老练 的 “Hadooper”， 
己 然 了 解 MapReduce 和 HDFS， 你 可 以 直接 跳 到 3.3 市 ， 深 入 学 习 HBase 
分 布 式 系统 。 

















本 章 使 用 的 代码 将 继续 上 一 章 开 始 的 TwitBase 项 目 ， 可 以 在 
https:/Wgithub.com/hbaseinaction/twitbase 下 载 。 


3.1 一 个 MapReduce 的 例子 


到 目前 为 止 ， 你 看 到 的 关于 HBase 的 一 切 ， 关 注 点 都 是 在 线 操 作 
Conline) 。 你 期 望 每 个 Get 和 Put 能 在 坚 秒 级 时 间 返 回 结果 。 你 谨慎 地 
处 理 Scan 命 令 ， 在 网 上 传输 尽 可 能 少 的 数据 以 便 它们 可 以 尽快 完成 。 你 
也 在 模式 设计 中 强调 这 一 点 。twits 表 的 行 键 做 了 特殊 设计 ， 用 来 最 大 化 
物理 数据 本 地 存放 和 最 小 化 扫描 记录 人 花费 的 时 间 。 

但 并 不 是 所 有 的 计算 都 要 求 在 线 执行 。 对 于 一 些 应 用 ， 离 线 操 作 
Coffline) 更 好 些 。 你 可 能 不 关心 网 站 流量 月 报表 需要 4 个 小 时 还 是 5 个 
小 时 来 生成 ， 只 要 在 业务 负责 人 需要 它们 之 前 完成 就 行 。 离 线 操作 也 有 
性 能 上 的 考虑 。 这 些 考虑 往往 集中 在 整个 聚合 计算 任务 上 ， 而 不 是 集中 
在 单个 请 求 的 延迟 上 。MapReduce 束 是 这 样 一 种 计算 范 型 ， 它 用 一 种 高 
效 的 方式 离线 〈 或 批 ) 处 理 大 量 数据 。 

3.1.1 延迟 与 否 吐 量 


离线 和 在 线 这 对 二 元 性 概念 已 经 出 现 多 次 了 。 这 对 二 元 性 概念 在 传 
统 关系 型 数据 库 领 域 里 也 存在 ， 如 联机 事务 处 理 COLTP) 和 联机 分 析 
处 理 COLAP) 。 不 同 的 数据 库 应 用 系统 针对 不 同 的 访问 模式 做 优化 。 
为 了 用 最 小 成 本 得 到 最 佳 性 能 ， 你 必须 针对 任务 特点 使 用 正确 的 工具 。 
快速 处 理 实时 查询 的 系统 很 可 能 在 对 大 量 数据 做 批 处 理 时 并 不 是 优化 的 
选择 。 

想 想 最 近 一 次 你 去 买 日 用 杂货 。 你 会 到 商店 买 一 样 东西 带 回 储藏 
室 ， 然 后 再 去 商店 买 下 一 样 吗 ? 好 吧 ， 有 时 你 会 这 么 做 ， 但 不 是 理想 的 
做 法 ， 对 吧 ? 更 有 可 能 的 是 ， 你 会 准备 一 个 购物 清单 ， 来 到 商店 ， 装 满 

















小 推 车 ， 把 所 有 东西 买 回 家 。 

这 种 做 法 使 得 购买 过 程 变 长 了 ， 但 是 花费 在 从 家 到 商店 路 途 往返 的 
时 间 比 一 次 买 一样 短 了 。 这 个 例子 中 ， 路 途 时 间 比 选择 、 购 买 和 拆 包 时 
间 更 为 重要 。 当 一 次 购买 多 样 东西 时 ， 每 样 东 西 所 花费 的 平均 时 间 要 少 
得 多 。 准 备 购物 清单 意味 着 高 否 吐 量 。 在 商店 里 ， 你 需要 一 个 更 大 的 手 
推 车 来 装载 那个 长 长 的 购物 清单 里 的 东西 ， 一 个 小 手提 篮子 不 够 用 的 。 
为 一 种 情况 准备 的 工具 对 于 男 一 种 情况 往往 古 不 适用 的 。 

我 们 用 同样 的 思路 来 考虑 数据 访问 。 在 线 系统 看 重 的 是 得 到 一 点 儿 
数据 所 需要 的 时 间 一 一 这 是 到 商店 里 买 一 样 东 西 的 整个 过 程 。 这 种 情况 
下 ， 测 量 响应 时 间 延 迟 ， 统 计 前 95% 的 表现 情况 一 般 是 衡量 在 线性 能 的 
最 重要 指标 。 离 线 系统 针对 聚合 访问 模式 做 了 优化 ， 为 了 最 大 化 否 吐 量 
希望 一 次 处 理 尽 可 能 多 的 数据 。 这 类 系统 通常 用 每 秒 处 理 单位 数 来 衡量 
性 能 。 这 里 的 单位 可 能 是 请 求 数 、 记 录 数 或 者 MB 数据 。 不 管 什么 单 
位 ， 这 里 看 重 的 是 整个 任务 的 总 处 理 时 间 ， 而 不 是 一 个 单位 的 处 理 时 
间 。 









































3.1.2 串 行 1 吐 量 


上 一 章 我 们 用 Scan 命令 来 查找 TwitBase 用 户 的 最 新 推 帖 。 新 建 了 起 
台 行 键 和 停止 行 键 ， 然 后 执行 扫描 。 碍 找 一 个 用 户 这 是 可 行 的 ， 但 是 如 
果 想 对 所 有 用 户 做 个 统计 会 怎么 样 呢 ?假设 你 有 一 定 规模 的 用 户 基数 ， 
你 可 能 想 知 道 多 少 比 例 的 推 帖 和 莎士比亚 有 关 ， 也 可 能 你 想 知 道 有 多 少 
用 户 在 推 帖 中 提 到 了 哈姆雷特 。 

怎样 从 系统 中 所 有 用 户 的 所 有 推 帖 里 产生 这 些 数据 呢 ? 使 用 Scan 对 
象 ， 会 做 到 这 一 点 : 





HTableInterface twits = Pool .getTable (TABLE NAME) ; 
Scan S = new Scan() :; 
ResultScanner results = twits.getScanner(s); 
for(Result r : results) { 

. // process twits 
} 


这 段 代 码 要 求 得 到 表 中 的 所 有 数据 ， 返 回 给 客户 端 做 迭代 得 找 。 看 
到 这 上 段 代 人 码 你 有 什么 感觉 ? 我 们 还 没有 解释 ResultScanner 实 例 里 迭代 处 
理 数据 的 内 部 流程 ， 你 的 直觉 就 会 说 : 这 是 一 个 糟糕 的 想法 。 即 使 运行 
连 代 循环 的 机 器 可 以 每 秒 处 理 10 MB 数据 ， 倒 腾 100 GB 推 帖 也 需要 将 近 
3 个 小 时 ! 





如 果 并 行 处 理会 怎么 样 呢 ?也 就 是 说 ， 把 GB 级 的 推 帖 数据 切片 ， 
并 行 处 理 所 有 数据 切片 。 启 动 8 个 线程 并 行 处 理 ， 处 理 时 间 会 从 3 小 时 变 
成 25 分 钟 。 一 台 8 核 笔记 本 电脑 可 以 轻松 处 理 100 GB 数据 ， 只 要 内 存 够 
用 ， 这 一 切 非常 简单 。 

把 工作 分 布 到 不 同 线程 上 的 代码 如 下 所 示 : 


int numSplits = 8; 拆 分 工作 


Split[] splits = split(startrow, endrow, numSplits); 
List<Future<?>> workers = new ArrayList<Future<?>> (numSplits),; 
ExecutorService es = Executors.newFixedThreadPool (numSplits); 
for (Final SBLIt, BBLIIt, & SBILESY { 
workers.add(es.submit (new Runnable() { 
public void run() { 

HTableInterface twits = pool.getTable (TABLE NAME); 

Scan s = new Scan(split.start, split.end),; 

ResultScanner results = twits.getScanner(s); 

for(Result r : results) { 


分 发 工作 





a <- 一 
} | 计算 工作 
站 
} 


for(Future<?> f : workers) { 
f.get(); 


F | 聚合 工作 


es.shutdownNow (); 


还 不 错 ， 但 有 一 个 问题 。 随 着 人 们 使 用 TwitBase 系统 ， 先 是 200 
GB 推 帖 ， 然 后 是 1TB， 然 后 是 50 TB! 在 笔记 本 硬盘 上 处 理 这 种 规模 数 
据 是 个 严重 的 挑战 ， 绝 对 会 变 慢 。 怎 么 办 ? 你 可 以 等 待 更 长 时 间 来 完成 
计算 ， 但 是 这 个 方案 不 会 总 是 用 数 小 时 完成 ， 将 来 会 是 数 天 完成 。 上 面 
对 计算 并 行 化 的 思路 很 对 ， 因 此 你 可 能 想 投 入 更 多 计算 机 。 也 许 你 会 用 
10 台 漂亮 的 笔记 本 的 价钱 买 20 台 廉价 服务 器 。 

令 人 敌人 多 的 并 行 化 

许多 计算 问题 本 来 很 适合 并 行 化 处 理 。 只 是 因为 一 些 偶然 的 原因 ， 
它们 不 得 不 用 串 行 化 方式 处 理 。 这 些 原因 可 能 是 编程 语言 设计 、 存 储 引 
擎 实现 方式 、 函 数 库 API 等 。 挑 碾 一 下 你 的 算法 设计 能 力 ， 看 看 这 样 的 
情况 有 哪些 。 不 是 所 有 问题 都 容易 并 行 处 理 ， 但 是 一 旦 你 开始 关注 ， 就 
会 惊讶 竞 然 如 此 之 多 。 

现在 有 了 计算 能 力 ， 你 需要 把 任务 切 分 到 那些 机 器 上 进行 并 行 计 
算 。 解 决 了 并 行 计 算 后 ， 聚 合 环节 也 需要 类 似 的 并 行 方案 。 所 有 这 一 切 
你 都 假定 所 有 事情 按照 预期 正常 工作 。 如 果 一 个 线程 卡 住 了 或 者 死 了 会 














怎样 呢 ? 如 果 一 个 硬盘 坏 了 或 者 机 器 出 现 了 随机 RAM 错误 会 怎样 呢 ? 
如 果 执 行者 能 在 他 们 失败 的 地 方 重 新 执行 会 是 一 个 解决 办 法 ， 可 以 防止 
一 个 数据 切片 问题 破坏 整个 安排 。 有 聚合 执行 者 如 何 跟 踊 哪 些 切 片 完 成 了 
任务 ， 哪 些 切 片 没有 完成 呢 ? 计算 结果 如 何 发 送 给 聚合 执行 者 呢 ? 计算 
任务 并 行 化 很 容易 ， 但 是 分 布 式 计算 剩 下 的 部 分 是 痛苦 的 信息 记录 工 
作 。 细 想 一 下 ， 你 写 的 每 个 计算 程序 〈 算 法 ) 都 需要 信息 记录 。 随 之 而 
来 的 解决 办 法 是 计算 框架 。 
3.1.4 MapReduce: 用 分 布 式 计算 最 吐 量 


现在 进入 Hadoop 世 界 。Hadoop 提 供 两 个 主要 组 件 来 解决 这 个 问 

题 。Hadoop 分 布 式 文件 系统 〈Hadoop Distributed File System，HDEFS ) 
给 所 有 计算 机 提供 了 一 个 通用 的 、 共 享 的 文件 系统 ， 供 它们 访问 数据 。 
这 解决 了 把 数据 配 发 给 执行 者 和 聚合 计算 结果 的 痛 苗 。 执 行者 可 以 在 
HDFS 上 访问 输入 的 数据 和 写 入 计算 结果 ， 其 他 执行 者 也 能 看 到 这 些 数 
据 。Hadoop MapReduce 完成 我 们 提 到 的 信息 记录 工作 、 切 分 工作 任务 
并 确保 它们 成 功 完 成 。 使 用 MapReduce， 你 所 要 编写 的 只 是 计算 工作 

(Do Work) 和 聚合 工作 (Aggregate Work) ; Hadoop 处 理 其 他 的 一 
切 。Hadoop 把 计算 工作 称 为 Map 阶段 (Map Step) 。 聚 合 工 作 相 应 称 
为 Reduce 阶段 (Reduce Step) 。 使 用 Hadoop MapReduce， 你 的 代码 如 
下 : 


public class Map 
extends Mapper<LongWritable, Text, Text, LongWritable> { 




















protected void map (LongWritable key, 
Text Value, 
Context context) { 


;| ”| 计算 工作 


这 段 代 码 实现 了 map 任 务 。 这 个 函数 的 输入 为 long 类 型 键 和 Text 类 


型 值 ， 输 出 为 Text 类 型 键 和 LongWritable 类 型 值 。Text 和 LongWritable 类 
型 分 别 是 基本 数据 类 型 String 和 Long 在 Hadoop 中 的 类 型 。 

注意 你 不 用 写 全 部 代码 。 没 有 数据 切片 计算 ， 没 有 跟踪 ， 没 有 后 期 
线程 池 清 理 。 更 妙 的 是 ， 这 上 段 代 人 码 可 以 在 Hadoop 集 群 的 任何 地 方 运行 ! 
Hadoop 基 于 可 用 资源 ， 逻 辑 上 在 整个 集群 中 分 配 执行 角色 。Hadoop 确 
保 每 台 机 器 得 到 twits 表 的 一 个 数据 切片 。Hadoop 确 保 计 算 工 作 没 有 拖 
后 腿 的 ， 即 使 执行 者 骨 溃 。 

聚合 工作 代码 也 会 以 类 似 的 方式 提交 给 整个 集群 。 在 Hadoop 里 代码 
如 下 : 


public class Reduce 
extends Reducer<Text, LongWritable, Text, LongWritable> { 


protected void reduce (Text key, 
Iterable<LongWritable> vals, 
Context context) { 


} 聚合 工作 
} 

这 就 是 reduce 任 务 。 这 个 阔 数 收 到 map 输 出 的 [String,Long] 键 值 对 ， 
生成 新 的 [String,Long] 键 值 对 。Hadoop 也 会 处 理 输出 的 收集 工作 。 本 例 
中 ，[String,Long] 键 值 对 写 回 到 HDFS。 你 也 可 能 把 输出 写 回 到 HBase。 
HBase 提 供 了 TableMapper 和 TableReducer 类 来 帮助 完成 这 两 项 任务 。 

你 已 经 掌握 什么 时 候 和 为 什么 会 使 用 MapReduce 而 不 是 直接 基于 
HBase API 编程 。 现 在 我 们 来 快速 了 解 一 下 MapReduce 框 架 。 如 果 你 
经 熟悉 Hadoop MapReduce， 请 跳 到 3.3 节 。 


3.2 HadoopMapReduce 概 览 


为 了 提供 一 个 普 遇 适用 的 、 可 靠 的 、 容 错 的 分 布 式 计算 框架 ， 
MapReduce 对 于 如 何 实现 应 用 程序 有 一 些 限制 条 件 。 这 些 限制 条 件 如 
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加 所 有 计算 都 分 解 为 map 或 者 reduce 任 务 来 实现 。 

晶 每 个 任务 处 理 全 部 输入 数据 中 的 一 部 分 。 

自主 要 根据 得 入 数据 和 输出 数据 定义 任务 。 

加 任务 依赖 于 自己 的 输入 数据 ， 不 需要 与 其 他 任务 通信 。 

Hadoop MapReduce 使 用 map 和 reduce 消 数 来 实现 应 用 程序 ， 执 行 这 
些 限 制 条 件 。 这 些 函数 组 合成 作业 〈job) ， 作 为 一 个 整体 运行 : 先 运 
行 mapper 然 后 是 reducer。Hadoop 尽 可 能 多 地 并 行 运行 任 务 。 因 为 并 行 任 
务 彼此 之 间 没 有 运行 依赖 ， 只 要 map 任 务 运行 在 reduce 任 务 之 前 ， 
Hadoop 可 以 以 任何 顺序 运行 它们 。Hadoop 决 定 运 行 多 少 任务 和 运行 哪 
个 任务 。 

每 个 规则 的 例外 

对 于 Hadoop MapReduce 而 言 ， 前 面 概括 的 要 点 更 像 是 指导 原则 而 
不 是 规则 。MapReduce 面 回 批 处 理 ， 意 味 着 大 部 分 设计 原则 专注 于 分 布 
式 海 量 数据 批 处 理 中 的 问题 。 如 果 系 统 为 分 布 式 事件 流 实 时 处 理 设计 ， 
则 会 采用 不 同 的 方式 。 

另 一 方面 ， 许 多 其 他 符合 这 些 限 制 条 件 的 工作 负载 会 广泛 使 用 
Hadoop MapReduce。 其 中 一 些 工作 负载 是 IO 密集 型 的 ， 另 一 些 是 计算 
密集 型 的 。Hadoop MapReduce 框 架 是 一 种 可 以 用 在 这 两 种 作业 的 、 可 
靠 的 、 容 错 的 作业 执行 框架 。 但 是 MapReduce 是 面向 IO 密集 型 作业 而 
优化 的 ， 它 通过 减少 网 络 传输 的 数据 量 在 减 小 网 络 瓶 颈 方 面 做 了 一 些 优 
化 。 











3.2.1 MapReduce 数据 流 介绍 
用 Map 和 Reduce 方 式 编写 程序 需要 你 改变 一 下 解决 问题 的 思路 。 对 
于 习惯 于 其 他 常用 编程 方式 的 开发 人 员 来 说 ， 这 是 一 个 很 大 的 改变 。 有 
人 把 这 种 根本 改变 称 为 编程 范 型 的 改变 〈change of paradigm) 。 不 要 担 














心 ! 这 种 说 法 可 能 对 也 可 能 不 对 。 我 们 会 尽 可 能 让 MapReduce 的 思考 方 
式 变 得 简单 。MapReduce 代 表 并 行 处 理 海量 数据 的 全 部 过 程 ， 让 我 们 从 
数据 流 的 角度 来 拆 解 分 析 一 个 MapReduce 解 决 问题 的 过 程 。 

下 面 的 例子 是 关于 一 个 应 用 服务 器 的 日 志文 件 的 。 这 个 文件 记录 用 
户 如 何 花 时 间 使 用 该 应 用 的 信息 。 它 的 内 容 如 下 : 
Date Time UserID Activity TimeSpent 





01/01/2011 18:00 userl Load pagel 3s 
01/01/2011 18:01 userl load page2 5s 
01/01/2011 18:01 user2 load pagel 25s 
01/01/2011 18:01 user3 load pagel 35s 
01/01/2011 18:04 user4 load page3 10s 
01/01/2011 18:05 userl load page3 55s 
01/01/2011 18:05 user3 load page5 3s 
01/01/2011 18:06 user4 load page4 6s 


01/01/2011 18:06 userl purchase 5S 
01/01/2011 18:10 user4 purchase 8S 
01/01/2011 18:10 userl confirm 9S 
01/01/2011 18:10 user4 confirm 11S 


01/01/2011 18:11 userl load page3 35s 

让 我 们 计算 每 个 用 户 使 用 该 应 用 所 花费 的 总 时 间 。 一 种 基本 的 实现 
方法 可 能 是 过 历 整个 文件 ， 为 每 个 用 户 加 总 TimeSpent 值 。 程 序 可 能 使 
用 UserID 〈 散 列 集合 或 是 字典 ) 作为 键 而 TimeSpent 作 为 值 做 加 总 。 一 


段 简单 的 伪 代 码 如 下 : 

agg = {} 

for line in tle | 计算 工作 
record = split (line) < 一 一 
agg [record["UserID"]] += record["TimeSpent"] 

report (agg) 聚合 工作 


这 看 起 来 很 像 上 一 节 的 串 行 计算 的 例子 ， 对 吗 ? 串 行 计算 的 例子 的 





否 吐 量 受 限于 单个 机 器 上 的 单个 线程 。MapReduce 是 为 分 布 式 并 行 处 理 
设计 的 。 并 行 处 理 问题 的 第 一 件 事 就 是 拆 解 。 请 注意 ， 输 入 文件 的 每 行 
在 处 理 时 与 其 他 所 有 行 是 独立 的 ， 不 同行 的 数据 只 是 在 聚合 阶段 才 走 到 
一 起 。 这 意味 着 输入 文件 可 以 按照 任意 行 数 并 行 处 理 、 独 立 处 理 ， 然 后 
聚合 生成 相同 的 结果 。 让 我 们 把 日 志文 件 切 分 成 4 份 ， 分 配给 4 台 不 同 的 
机 器 处 理 ， 如 图 3-1 所 示 。 


01/01/201]1 18:00 userl load pagel 3S 

01/01/2011 18:01 USerl load page2 SS 
01/01/2011 18:01 user2 load pagel 25 

01/01/2011 18:0] user3 load pagel 3S 

01/01/2011 18.04 user4 load page3 10s 
01/01/2011 18:05 userl load page; SS 

01/01/2011 18:05 user3 load page5 3S 

01/01/201]1 18:06 user4 load page4 6s 
01/01/2011 18:06 userl purchase SS 

01/01/2011 18:10 user4 purchase 8S 

01/01/2011 18:10 userl confirm 9s 
01/01/2011 18:10 user4 confirm lls . 
01/01/2011 18.:11 user] ”load_pasge3 3S 


图 3-1 拆 解 和 分 配 工作 。 日 志文 件 中 每 条 记录 可 以 独立 处 理 ， 所 以 
根据 可 用 的 执行 者 数量 来 拆 解 

仔细 看 看 这 些 拆 解 方式 。 除 了 以 行为 单位 拆 解数 据 ，Hadoop 不 需 
要 知道 其 他 的 。 特 别 是 不 需要 花费 精力 按照 UserID 来 分 组 。 这 一 点 很 重 
要 ， 稍 后 我 们 再 讨论 。 

现在 是 拆 解 和 分 配 工作 。 如 何 重 写 程序 来 处 理 日 志文 件 呢 ? 如 同 在 
map 和 reduce 函 数 中 看 到 的 ，MapReduce 使 用 键 值 对 进行 处 理 。 对 于 日 
志文 件 这 种 面 癌 行 的 数据 ， Hadoop 使 用 键 值 对 [line number:line]。 在 整 
个 MapReduce 工作 流程 中 ， 我 们 一 般 把 第 一 组 键 值 对 称 为 [kK1,v1]。 让 


我 们 先 编写 Map 阶 段 程序 ， 再 次 使 用 伪 代 码 如 下 : 


def map(line num, line): ‘ 人" 

pe ly 计算 工作 
record = split (line) < 一 一 
emit (record["UserID"], record["TimeSpent"]) 


Map 阶 段 根据 文件 中 的 行 来 定义 。 对 于 日 志文 件 中 的 每 一 行 ，Map 
阶段 把 行 分 离 出 来 并 且 生 成 一 个 新 键 值 对 [UserID:TimeSpent]。 这 上 段 伪 
代码 中 ，emit 函数 负责 向 Hadoop 报 告 生 成 的 键 值 对 。 你 可 能 猜 到 了 ， 我 
们 把 第 二 组 键 值 对 称 为 [k2,v2]。 图 3-2 继 续 处 理 图 3-1 中 的 数据 。 

在 Hadoop 把 [k2,v2] 键 值 对 传递 给 Reduce 阶段 之 前 ， 有 必要 做 一 点 

言 息 记 录 工 作 。 还 记得 按照 UserID 分 组 吗 ? Reduce 阶 段 期 望 基 于 某 个 指 
定 的 UserID 处 理 所 有 的 TimeSpent。 为 此 ， 分 组 工作 现在 出 现 了 。 
Hadoop 称 为 洗 牌 阶段 (Shuffle Step) 和 排序 阶段 (Sort Step) 。 图 3-3 


所 示 解 释 了 这 些 阶段 。 


"01/01/2011 18:00 userl load pagel3s" 
"01/01/2011 18:01 userl load page25s" Dl 
"01/01/2011 18:01 user2 load pagel2s" 


| 


wuserl"” : "3s" 
uri™ ss vo” [Kk2,vV2] 
"UsSer2" se WW 


图 3-2 计算 工作 。 分 配给 Host1 的 数据 [k1,v1] 以 行 号 和 行内 容 键 值 对 
的 形式 传送 给 Map 阶 段 ，Map 阶段 处 理 每 一 行 ， 生 成 [k2,v2]， 即 
[UserID, TimeSpent] 键 值 对 
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[k2,<v2>] 


图 3- ee 阶段 。 该 过 程 处 理 Map 阶段 的 输 
出 ， 为 Reduce 阶段 聚合 做 准备 。 在 过 程 中 不 会 改变 值 ， 只 是 重新 组 合 
数据 
MapReduce 从 所 有 4 台 服 务 器 上 的 Map 阶 段 得 到 输出 [k2,v2] 键 值 对 ， 
然后 分 派 给 reducer。 每 个 reducer 被 分 派 一 组 UserID 值 ， 然 后 从 mapper 节 
点 复制 相应 的 键 值 对 [k2,v2]。 这 叫做 洗 牌 阶段 。reduce 任 务 期 望 同 时 处 
理 所 有 k2 的 值 ， 所 以 对 键 排序 是 必需 的 。 排 序 阶段 的 输出 是 每 个 UserID 
的 Times 列 表 [k2,<v2>]。 分 组 完成 后 ， 运 行 reduce 任 务 。 聚 合 工作 代码 
如 下 : 


def reduce (user, times): 


for time in times: 聚合 工作 


Sum += 七 Ime 
emit (user, sum) 
Reduce 阶段 处 理 [k2,<v2>] 键 值 对 输入 ， 并 聚合 生成 
[UserID:TotalTime] 键 值 对 。 这 些 加 总 结果 由 Hadoop 收 集 并 写 入 输出 目 
的 地 。 图 3-4 所 示 解 释 了 最 后 这 个 步 又 。 
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图 3-4 聚合 工作 。 服 务 器 处 理 [k2,<v2>], 即 [UserID, <Times>] 键 值 
对 ， 加 总 ， 最 后 结果 写 回 到 Hadoop 
如 有 果 你 愿意 ， 可 以 运行 这 段 程序 ， 源 代码 收集 在 TwitBase 源 代 码 
中 。 为 此 要 编译 JAR 应 用 包 ， 然 后 启动 作业 ， 如 下 所 示 : 








$ mvn clean package 

[INFO] Scanning for projects... 

[INFO] 

[INFO] -------- 


[INFO] -=----- 


[INFO] ------ 
[INFO] BUILD SUCCESS 
[INFO] ------- 


$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.mapreduce.TimeSpent 和 
src/test/resource/listing\ 3.3.txt ./out 


22:53:15 INFO mapred.JobClient: Running job: job local 0001 

22:53:15 INFO mapred.Task: Using ResourceCalculatorPlugin : null 

22:53:15 INFO mapred.MapTask: io.sort.mb = 100 

22:53:15 INFO mapred.MapTask: data buffer = 79691776/99614720 

22:53:15 INFO mapred.MapTask: record buffer = 262144/327680 

22:53:15 INFO mapred.MapTask: Starting flush of map output 

22:53:15 INFO mapred.MapTask: Finished spill 0 

22:53:15 INFO mapred.Task: Task:attempt local 0001 m 000000 0 is done. And is 
in the process of commiting 

22:53:16 INFO mapred.JobClient: map 0% reduce 0% 


22:53:21 INFO mapred.Task: Task 'attempt local 0001 Yr 000000 0' done. 
22:53:22 INFO mapred.JobClient: map 100% reduce 100% 

22:53:22 INFO mapred.JobClient: Job complete: job local 0001 

$ cat out/part-r-00000 


userl 30 
user2 2 
user3 6 
user4 35, 


这 就 是 MapReduce 的 数据 流程 。 每 个 MapReduce 应 用 执行 全 部 步 
骤 ， 或 者 是 大 部 分 步骤 。 如 果 你 可 以 模仿 这 些 基 本 的 步骤 ， 承 成 功 掌握 
了 这 种 新 程序 范 型 。 


3.2.2 MapReduce 内 这 | 


构建 一 个 通用 的 、 分 布 式 、 并 行 计算 系统 是 很 不 容易 的 。 这 正 是 我 
们 要 把 这 个 问题 en lg 了 解 事情 是 如 何 实 
现 的 还 是 很 有 用 的 ， 尤 其 是 当 你 追踪 一 个 Bug 时 。 我 们 知道 ，Hadoop 是 
一 分 布 式 系 统 。 几 个 独立 的 组 件 构 成 了 整个 框架 。 让 我 们 逐个 了 解 它 





们 ， 看 看 是 什么 让 MapReduce 如 此 精密 地 工作 的 。 

一 个 叫 JobTracker 的 进程 扮演 着 应 用 监管 角色 。 它 负责 管理 集群 上 
运行 的 MapReduce 应 用 。 作 业 提 交 给 JobTracker 来 执行 ， 它 管理 分 配 工 
作 负 载 。 它 也 负责 记录 作业 的 各 个 部 分 的 运行 情况 ， 确 保重 新 启动 失败 
的 任务 。 一 个 Hadoop 集群 可 以 同时 运行 多 个 MapReduce 应 用 。 
JobTracker 负 责 监管 资源 利用 率 和 作业 时 间 表 安排 等 。 

Map 阶段 和 Reduce 阶段 定义 的 工作 由 男 一 个 叫做 TaskTracker 的 进 
程 来 执行 。JobTracker 和 TaskTracker 之 间 的 关系 如 图 3-5 所 示 。 它 们 是 真 
正 的 工作 进程 。 单 个 TaskTracker 没 有 特殊 化 设置 。 任 何 TaskTracker 都 可 
以 运行 任何 作业 的 任何 任务 ， 无 论 是 map 还 是 reduce。Hadoop 是 智能 地 
而 不 是 随意 地 把 工作 布置 在 节点 上 的 。 

我 们 说 过 ，Hadoop 专 门 为 最 小 化 网 络 IO 而 优化 。 它 通过 把 计算 尽 
可 能 靠近 数据 来 实现 这 一 点 。 典 型 的 Hadoop 环境 中 ，HDFS DataNode 
和 MapReduce TaskTracker 一 般 并 列 配置 在 一 起 。 这 样 map 和 reduce 任 
务 可 以 运行 在 存放 数据 的 同一 个 物理 节点 上 。Hadoop 这 样 做 可 以 避免 
在 网 络 上 传输 数据 。 如 果 不 能 在 同一 物理 节点 上 运行 任务 ， 会 选择 在 同 
一 机 染 的 机 器 上 运行 任务 ， 最 坏 的 选择 才 是 在 不 同 机 架 的 机 器 上 运行 。 
HBase 出 现 后 ， 也 采用 同样 的 理念 ， 但 是 一 般 而 言 HBase 部 署 和 标准 的 
Hadoop 部 署 有 所 不 同 。 你 将 在 第 10 章 学 习 HBase 部 普 策 略 。 























Hadoop MapReduce 
图 3-5 JobTracker 和 TaskTracker 负 贡 执 行 提 交 到 集群 的 MapReduce 心 
用 


3.3 分 布 式 模式 的 HBase 





到 现在 为 止 你 已 经 知道 了 HBase 是 一 种 搭建 在 Hadoop 上 面 的 数据 
库 ， 有 时 也 称 为 Hadoop 数 据 库 ， 这 就 是 这 个 名 字 的 缘由 。 理 论 上 HBase 
可 以 运行 在 任何 分 布 式 文件 系统 上 面 。 只 是 HBase 和 Hadoop 的 集成 更 加 
紧密 ， 且 与 其 他 分 布 式 文件 系统 相 比 ，HBase 投 入 了 更 多 的 研发 努力 ， 
使 得 与 HDFS 工 作 得 更 好 一 些 。 当 然 ， 理 论 上 讲 ， 其 他 文件 系统 没有 理 
由 不 文 持 HBase。HBase 把 数据 存放 在 一 个 提供 单一 命名 空间 的 分 布 式 
文件 系统 上 ， 这 是 一 个 使 HBase 满 足 可 扩展 性 和 容错 性 的 重要 因素 。 这 
个 重要 因素 帮助 HBase 成 为 一 种 完全 一 致 的 数据 库 。 

HDFS 天 生 是 一 种 可 扩展 的 存储 ， 但 是 还 不 足以 文 持 HBase 成 为 一 
种 低 延 迟 的 数据 库 。 这 里 还 需要 一 些 其 他 的 因素 ， 本 节 你 会 了 解 到 。 为 
了 优化 设计 应 用 ， 理 解 这 些 内 容 很 重要 。 这 些 知识 可 以 帮助 你 做 出 明智 
的 选择 ， 诸 如 如 何 访问 HBase， 键 应 该 如 何 设计 ， HBase 应 该 如 何 配 
置 ， 等 等 。 应 用 开发 人 员 本 不 该 为 HBase 配置 费心 ， 但 是 在 HBase 搭 建 
初期 你 很 可 能 需要 承担 这 方面 的 工作 。 











3.3.1 切 分 和 分 配 大 表 


和 其 他 数据 库 一 样 ，HBase 中 的 表 也 是 由 行 和 列 组 成 的 ， 虽 说 模式 
有 些 不 同 。HBase 中 的 表 可 能 达到 数 十 亿 行 和 数 百 万 列 。 每 个 表 的 大 小 
可 能 达到 TB 级 ， 有 时 甚至 PB 级 。 显 然 不 可 能 在 一 台 机 器 上 存放 整个 
表 。 相 反 ， 表 会 切 分 成 小 一 点 儿 的 数据 单位 ， 然 后 分 配 到 多 台 服 务 器 
上 。 这 些小 一 点 儿 的 数据 单位 叫做 region (如 图 3-6 所 示 ) 。 托 管 region 
的 服务 器 叫做 RegionServer。 
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415-111-1234 

415-111-1234 408-432-9922 
408-432-9922 415-993-2124 
415-993-2124 818-243-9988 
818-243-9988 
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408-432-9922 
415-993-2124 
818-243-9988 
206-221-9123 
818-231-2566 
425-112-9877 
415-992-4432 
530-288-9832 
916-992-1234 
650-241-1192 
206-294-1298 






206-221-9123 206-221=9123 
818-231-2566 818-231-2566 
425-112-9877 425-112-9877 
415-992-4432 415-992-4432 


530-288-9832 
916-992-1234 530-288-9832 
650-241-1192 916-992-1234 


206-294-1298 650=241=-1192 
206-294-1298 


表 T1 拆 分 成 3 个 region 一 一 R1、R2 和 R3 
图 3-6 一 张 表 由 多 个 小 一 点 儿 的 region 组 成 
RegionServer 和 HDFS DataNode (如 图 3-7 所 示 ) 典型 情况 下 并 列 配 








置 在 同一 物理 硬件 上 ， 虽 说 这 不 是 必需 的 。 实 际 上 ， 唯 一 的 要 求 是 
RegionServer 必 须 能 够 访问 HDFS。RegionServer 本 质 上 是 HDFS 客 户 端 ， 
在 上 面 存 储 / 访 问 数据 。 主 (master) 进程 分 配 region 给 RegionServer， 


个 RegionServer 一 般 托 管 多 个 region 。 


全 | 
全 | 
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图 3-7 HBase RegionServer 和 HDFS DataNode 典 型 情况 下 并 列 配置 在 
同一 台 主 机 上 

考虑 到 基础 数据 存储 在 HDFS 上 ， 所 有 客户 端 都 可 以 在 一 个 命名 空 
间 下 访问 。 所 有 RegionServer 都 可 以 访问 文件 系统 里 同一 个 文件 ， 因 此 
RegionServer 可 以 托管 任何 region 〈 见 图 3-8) 。 通 过 DataNode 和 
RegionServer 并 列 配置 ， 你 可 以 利用 数据 本 地 处 理 特点 ;也 就 是 说 ， 理 
论 上 RegionServer 可 以 把 本 地 DataNode 作 为 主要 DataNode 进 行 读 写 操 
作 。 
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TIR3 
530-288-9832 
916-992-1234 
650-241-1192 
206-294-1298 





Host3 
图 3-8 任何 RegionServer 可 以 托管 任何 region。RegionServer 1 和 


RegionServer 2 托管 着 region， 但 是 RegionServer 3 没有 
你 可 能 想 知道 这 种 体系 里 TaskTracker 放 到 哪里 去 了 。 在 某 些 HBase 
部 晋 中 ， 如 果 工 作 负 载 主要 是 随机 读 写 ，MapReduce 框 架 根 本 束 不 需要 
部 署 。 另 外 一 些 HBase 部 署 中 ， MapReduce 计 算 也 是 工作 负载 的 一 部 
分 ， 那 么 TaskTracker、DataNode 和 HBase RegionServer 可 以 一 起 运行 。 


[| 


单个 region 大 小 由 配置 参数 HBase.hregion.max.filesize 决 定 ， 这 个 参 
数 在 你 的 部 署 中 的 hbase-site.xml 文件 里 设 定 。 当 一 个 region 大 小 变 得 
大 于 该 值 (因为 写 入 了 更 多 数据 ， 时 ， 它 会 切 分 成 两 个 region。 


3.3.2 如 何 找 到 region 

你 已 经 学 习 了 把 表 切 分 成 region ， 然 后 不 按 任何 预定 规则 地 把 
region 分 配给 RegionServer。 也 许 你 党 得 奇怪 ， 难 道 region 不 会 在 运行 
的 系统 中 移动 位 置 ! 当 region 切 分 时 《因为 它们 增长 得 太 大 ) ， 当 
RegionServer 宕 机 时 ， 或 者 当 新 RegionServer 诡 加 进来 时 ， 会 发 生 region 
分 配 动作 。 这 里 有 一 个 重要 问题 :“ 当 一 个 region 分 配给 RegionServer 
时 ， 我 的 客户 端 应 用 《提出 恋 写 要 求 的 ) 如 何 知 道 它 的 位 置 ? ” 

HBase 中 有 两 个 特殊 的 表 ，-ROOT- 和 .META.， 用 来 查找 各 种 表 的 
region 位 置 在 哪里 。-ROOT- 和 .META. 像 HBase 中 其 他 表 一 样 也 会 切 分 
成 region。-ROOT- 和 .META. 都 是 特殊 的 表 ， 但 是 -ROOT- 比 .META. 更 
特殊 一 些 ，-ROOT- 永 远 不 会 切 分 超过 一 个 region。.META. 和 其 他 表 一 
样 可 以 按 需 要 切 分 成 许多 region 。 

当 客 户 端 应 用 要 访问 某 行 时 ， 它 先 找 -ROOT- 表 ， 碍 找 什 么 地 方 可 
以 找到 负责 某 行 的 region。-ROOT- 指 向 .META. 表 的 region， 那 里 有 这 
个 问题 的 答案 。.META. 表 由 入 口 地 址 组 成 ， 客 户 端 应 用 使 用 这 个 入 口 
地 址 判断 哪 一 个 RegionServer 托管 竺 查找 的 region。 这 个 得 找 过 程 就 像 
一 个 3 层 分 布 式 B+ 树 〈 见 图 3-9) 。-ROOT- 表 是 B+ 树 的 -ROOT- 节 
点 。.META. region 是 -ROOT- 节 点 〈-ROOT-region) 的 叶子 ， 用 户 表 的 
region 是 .META. region 的 叶子 。 





-ROOT- 表 只 包含 1 个 region， 
托管 在 RegionServer 
RS1 上 面 


.METR . 表 包 含 3 个 region， 托 
管 在 RS1、RS2 和 RS3 上 面 





证 ne dy 
| TIRI 1 | TIR2 | 1 T2RI 1 | TIR3 1 | T2R2 1 T2R3 1 | T2R4 14 个 region， 分 布 在 RS1、RS2 
aaa 站 和 RS3 上 面 。 


RS3 ~ RSI ”RS2 RS3 RS2 RS1 RS 
图 3-9 -ROOT-、.META. 和 用 户 表 的 B+ 树 视图 
让 我 们 把 -ROOT- 和 .META. 放 进 这 个 例子 ， 见 图 3-10。 请 注意 这 里 
表示 的 region 分 配 是 随意 的 ， 不 代表 这 种 系统 被 部 署 时 会 如 此 分 配 。 
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I 
1 
| 
| 415-993-2124 RegionServer 1 (RS1) 托管 用 
I 818-243-9988 户 表 T1 的 region RI 和 .META. 
! 表 的 region M2。 
1 
META. - M2 
1 

i T1:00009-T1:000]2 R3 RS2 

Hostl 
TI-R2 

1 00005 206-221-9123 
00006 818-231-2566 
1 00007 425-112-9877 
: 00008 415-992-4432 
1 
I 
| "TRS 
| RegionServer 2 (RS2) 托管 
1 00009 530-288-9832 用 户 表 的 region R2、R3 和 

oD ee 00010 916-992-1234 .META . 表 的 region M1 


00011 650-241-1192 
00012 206-294-1298 
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-ROOT- 





Host3 M:T100001-M:T100009 Ml RS2 | RegionServer 3 (RS3) 只 托 
M:T100010-M:T100012 M2 RS1 | 管 了 -ROOT- 


图 3-10 HBase 中 的 用 户 表 T1 以 及 -ROOT- 和 .META.， 分 布 在 各 个 
RegionServer 上 





3.3.3 旭 何 找到 -ROOTI- 


刚才 学 习 了 -ROOT- 和 .META. 表 如 何 帮 助 找 出 系统 中 的 其 他 
region。 这 时 你 可 能 还 有 一 个 问题 : “ROOT- 表 在 哪里 呢 ? ”我 们 现在 来 
回答 这 一 问题 。 

另 一 个 叫做 ZooKeeper 的 系统 提供 了 HBase 系 统 的 入 口 点 

Chttp:/zookeeper.apache.org/) 。 如 ZooKeeper 的 网 站 所 述 ，ZooKeeper 


是 一 种 集中 服务 ， 用 来 维护 配置 信息 、 命 名 服务 、 提 供 分 布 式 同步 和 提 
供 分 组 服务 等 。 这 是 一 种 高 可 用 的 、 可 靠 的 分 布 式 配置 服务 。 就 像 
HBase 模 仿 了 Google 的 BigTable 一 样 ，ZooKeeper 模 仿 的 是 Google 的 
Chubby。 _Pg| 

如 前 所 述 ， 客 户 端 与 HBase 系统 的 交互 分 儿 个 步骤 ，ZooKeeper 是 
入 口 点 。 这 些 步 骤 如 图 3-11 所 示 。 


ZooKeeper 


ZooKeeper 客户 端 -> ZooKeeper: -ROOT- 在 哪里 ? 


ZooKeeper 


并 
1 
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客户 端 ZooKeeper-> 客 户 端 : 在 RegionServer RS1 上面。 


客户 端 客户 端 -> -ROOT- table on RS1: 哪 一 个 .META. 


region 可 以 帮 我 找到 天 T1 里 的 行 000093? 


客户 端 RSL 上 的 -ROOT- 表 -> 客户 端 : 在 RegionServer 


RS3 上 的 .METRA. region M2 可 以 找到 。 


客户 端 ->RS3 上 的 .META. region M2: 我 要 读 取 
表 T1 的 行 00009。 在 哪 一 个 region 上 可 以 找到 ? 哪 
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牛 
民 
1 
六 
日 





RS3 RS4 一 个 RegionServer 为 它 提供 服务 呢 ? 
第 步 产 -一 产 -一 
客户 六 RS3 上 的 .META. region M2 -> 客户 端 : 
在 RegionServer RS3 上面 的 region TIR3。 
第 7 步 RSI RS2 
客户 端 客户 端 ->RS3 上 的 region TIR3: 我 要 读 取 行 00009。 


ee ee eee ee ee ee ee ee ee ee ee ee ee ee ee ee ee ee 


8 步 
客户 端 


RS4 


RS3 上 的 region TIR3 -> 客户 端 : 好 的 ， 拿 去 吧 。 





图 3-11 客户 端 与 HBase 系 统 交 互 的 步骤 。 访 问 从 ZooKeeper 开 始 ， 
最 后 到 达 客 户 端 需 要 访问 的 region 所 在 的 RegionServer。 对 RegionServer 
的 访问 可 能 是 读 或 写 。-ROOT- 和 .META. 的 信息 缓存 在 客户 端 ， 以 备 将 
来 访问 使 用 ， 如 果 访 问 region 所 对 应 的 节点 不 存在 将 会 刷新 该 信息 
本 贡 概 要 介绍 了 Hbase 的 分 布 式 架构 的 实现 方式 。 你 可 以 在 自己 的 
集群 上 观察 所 有 这 些 细节 。 我 们 会 在 附录 人 A 全 面 介绍 ZooKeeper、- 
ROOT- 和 .META.。 











3.4 HBase 和 MapReduce 


现在 你 对 分 布 式 的 MapReduce 和 HBase 有 了 理解 ， 让 我 们 看 看 两 者 
是 如 何 一 起 工作 的 。 从 MapReduce 应 用 访问 HBase 有 3 种 方式 。 作 业 开 始 
时 可 以 用 HBase 作 为 数据 源 〈data source) ， 作 业 结 束 时 可 以 用 HBase 接 
收 数 据 (data sink) ， 任 务 过 程 中 用 HBase 共 享 资源 (shared 
resource) 。 这 3 种 访问 方式 并 不 特别 难以 理解 。 但 是 第 三 种 方式 有 些 
有 趣 的 使 用 场景 ， 我 们 稍 后 讨论 。 

本 节 中 所 有 代码 片段 都 是 使 用 Hadoop MapReduce API 的 例子 。 这 里 
没有 涉及 HBase 客 户 端 HTable 和 HTablePool 实 例 。 它 们 已 经 租 入 用 到 的 
特殊 输入 和 输出 格式 里 了 。 但 是 你 会 用 到 已 经 熟悉 的 Put、Delete 和 Scan 
对 象 。 创 建设 置 Hadoop 作 业 和 配置 实例 是 一 件 繁琐 的 工作 。 这 些 代码 卢 
段 将 强调 计算 工作 中 的 HBase 部 分 。 在 3.5 节 你 会 看 到 一 个 完整 的 例子 。 











3.4.1 HBase 作 为 数据 源 


在 前 面 MapReduce 应 用 的 例子 中 ， 需 要 从 存储 于 HDFS 的 日 志文 件 
里 读 出 行 。 特 别 是 保存 这 些 文件 的 HDFS 目录 经 常用 作 MapReduce 作 
业 的 数据 源 。 数 据 源 的 模式 把 [line number':line] 解 释 为 [k1,v1] 键 值 对 。 
MapReduce 作 业 中 使 用 TextInputFormat 类 来 定义 这 种 模式 。TimeSpent 例 








子 中 的 相关 代码 如 下 : 
Configuration conf = new Configuration() :; 
Job job = new Job (conft ， "TimeSpent"); 


job.setIinputFormatClass (TextIinputFormat .ClaSSs) ; 
job.setOutputFormatClass (TextOutpPutEormat .ClLaSSs) ; 
TextInputFormat 把 [k1,v1] 键 值 对 中 的 line number 和 line 的 类 型 分 

别 定义 为 LongWritable 和 Text。LongWritable 和 Text 是 在 Java 的 基本 数据 
类 型 Long 和 String 上 封装 的 序列 化 Hadoop 类 型 。 相 应 的 map 任 务 定义 中 
使 用 这 些 输入 键 值 对 类 型 : 

public void map (LongWritable key, Text value, 

Context context) { 


HBase 提 供 了 类 似 的 类 来 使 用 表 中 的 数据 。 你 会 使 用 前 面 用 到 的 
Scan 类 从 HBase 中 取出 数据 。 内 部 机 制 中 ， 由 Scan 定义 的 范围 取出 的 行 
会 被 切 分 并 分 配给 所 有 服务 器 《〈 见 图 3-12) 。 

每 个 region 对 应 一 个 map 任 务 。 
这 些 任 务 把 对 应 region 的 键 范围 


作为 它们 的 输入 数据 切片 ， 并 在 
上 面 执行 扫描 。 


由 RegionServer 提 供 服 务 的 region 





RegionServer RegionServer RegionServer 


图 3-12 MapReduce mapper 作 业 从 HBase 中 取得 region 作 为 输入 源 。 
每 个 region 默 认 建立 一 个 mapper 
这 和 图 3-1 中 的 数据 切 分 是 相同 的 。 在 MapReduce 里 ， 创 建 实例 扫描 
表 中 所 有 行 ， 如 下 所 示 : 


Scan Scan = new Scan(); 
scan.addColumn (Bytes.toBytes ("twits'"), Bytes.toBytes ("twit")); 


本 例 中 ， 要 求 扫描 器 返回 twits 表 中 的 推 帖 文本 。 

如 同 使 用 行文 本 文件 ， 使 用 HBase 记录 也 需要 一 种 模式 。 从 HBase 
表 中 读 取 的 作业 以 [rowkey:scan result] 格 式 接收 [k1,v1] 键 值 对 。 扫 描 器 的 
结果 和 使 用 常规 HBase API 是 一 样 的 。 它 们 对 应 的 类 型 是 
ImmutableBytesWritable 和 Result。 系 统 提供 的 TableMapper 封 狼 了 这 些 
细节 ， 你 会 使 用 它 作为 基 类 来 实现 你 的 Map 阶段 功能 : 


protected void map (人 


ImmutableBytesWritable rowkey, 
Result result, 定义 map 任务 接收 的 [kl,v1] 的 输入 











De Gb 类 型 ， 本 例 中 这 些 类 型 来 自 于 扫描 器 


下 一 步 在 MapReduce 中 使 用 Scan 实例 。HBase 提 供 了 方便 的 
TableMapReduceUtil 类 来 帮助 你 初始 化 Job 实 例 : 
TableMapReduceUtil.initTab1leMappPerJUopb ( 
"rtwits", 
scan, 
Map.class, 
ImmutableBytesWritable.class, 
Result.class, 
job); 
这 一 步 会 配置 作业 对 象 ， 建 立 HBase 特 有 的 输入 格式 
CTableInputFormat) 。 然 后 设置 MapReduce 使 用 Scan 实例 来 读 出 表 的 记 
录 。 这 一 步 会 出 现在 Map 和 Reduce 类 的 实现 里 。 从 现在 开始 ， 你 可 以 像 
平常 一 样 编写 和 运行 MapReduce 应 用 。 
当 你 执行 如 上 所 述 的 MapReduce 作 业 时 ，HBase 表 的 每 个 region 会 启 
动 一 个 map 任 务 。 换 句 话说 ，map 任 务 是 分 解 的 ， 每 个 map 任 务 分 别 读 取 
一 个 region。JobTracker 尺 可 能 围绕 region 就 近 安 排 map 任 务 ， 充 分 利用 
数据 的 本 地 性 。 





3.4.2 HBase 迷 


从 MapReduce 往 HBase 表 里 面 写 入 数据 《〈 见 图 3-13) 和 读 出 数据 从 
实现 角度 而 言 是 类 似 的 。 


reduce 任 务 写 入 HBase region。reduce 
任务 不 一 定 写 入 同一 台 物 理 主机 的 region 

上 。 它 们 有 可 能 写 入 任何 一 个 包含 要 写 入 
的 键 范围 的 region。 这 种 做 法 的 潜台词 是 
所 有 reduce 任 务 可 能 会 写 入 集群 里 的 所 
有 region。 


由 RegionServer 提 供 服务 的 region 





图 3-13 HBase 接 收 MapReduce 作 业 数 据 。 本 例 中 ，reduce 任 务 正 写 
入 HBase 

HBase 提 供 了 类 似 的 工具 来 简化 配置 过 程 。 让 我 们 先 看 一 个 标准 
MapReduce 应 用 的 数据 接收 配置 的 例子 。 

在 TimeSpent 例 子 中 ， 聚 合 器 生成 的 [k3,v3] 键 值 对 是 
[UserID:TotalTime]。 在 MapReduce 应 用 中 ， 它 们 分 别 是 Hadoop 序 列 化 类 
型 Text 和 LongWritable。 配 置 输出 类 型 和 配置 输入 类 型 类 似 ， 不 同 之 处 
在 于 [k3,v3] 输 出 类 型 需要 明确 定义 而 不 能 由 OutputFormat 默 认 指 定 。 
Configuration conf = new Configuration(); 

Job job = new Job (conf, "TimeSpent").,， 


job.setOutputKeyClass (Text .class),; 
job.setOutputValueClass (LongWritable.class); 


Job.setIinputFormatClass (TextInputFormat .class); 
Job.setOutputFormatClass (TextOutputFormat.class),; 


本 例 中 没有 指定 行 号 。 相 反 ，TextOuputFormat 模 式 生 成 用 Tab 做 分 
隔 符 的 输出 文件 ， 第 一 部 分 内 容 是 UserID， 然 后 是 TotalTime。 写 入 硬 
盘 的 是 代表 两 种 类 型 的 字符 串 〈String) 。 

Context 对 象 包 含 数据 类 型 信息 。 这 里 定义 reduce 函 数 如 下 : 


public void reduce (Text key, Iterable<LongWritable> values, 
Context context) { 


} 
当 从 MapReduce 写 入 HBase 时 ， 你 会 再 一 次 用 到 常规 HBaseAPI。 假 
定 [k3,v3] 键 值 对 的 类 型 是 一 个 行 键 和 一 个 操作 HBase 的 对 象 。 这 意味 着 
v3 的 值 可 能 是 Put 或 Delete。 因 为 这 两 种 对 象 类 型 包括 相应 的 行 键 ，k3 的 
值 可 以 忽略 。 和 使 用 TableMapper 封 装 细 节 一 样 ，TableReducer 也 是 如 


protected void reducel( 
ImmutableBytesWritable rowkey, 
Iterable<Put> values, 定义 reducer 的 [k2,{v2}] 的 输入 类 型 ， 它 
Wai 们 是 map 任务 输出 的 中 间 键 值 对 。 


最 后 一 步 是 把 reducer 填 入 到 作业 配置 中 。 你 需要 使 用 合适 的 类 型 定 
义 目标 表 。 再 一 次 使 用 TableMapReduceUtil， 它 为 你 设置 
TableOutputFormat ! 这 里 使 用 系统 提供 的 IdentityTableReducer 类 ， 因 为 
你 不 需要 在 Reduce 阶段 执行 任何 计算 : 
TableMapReduceUtil.initTableReducerJob! 
users", 
IdentityTableReducer.class, 
ToD 
现在 作业 完全 准备 好 了 ， 你 可 以 像 通常 一 样 执行 。 和 map 任 务 从 
HBase 读 取 数 据 时 不 同 ， 一 个 reduce 任 务 可 以 不 必 只 对 应 一 个 region。 
reduce 任 务 会 按照 行 键 写 入 负 贡 相应 行 键 的 region。 默 认 情 况 下 ， 当 分 
区 执行 者 分 配 中 间 键 给 reduce 任 务 时 ， 它 不 知道 region 和 托管 它们 的 机 
器 ， 因 此 不 能 智能 地 分 配 工作 给 reducer 以 支持 它们 写 入 本 地 region。 此 
外 ， 根 据 在 reduce 任 务 中 的 写 入 逻辑 ， 可 能 不 一 定 只 是 写 入 同一 个 


reducer， 你 可 能 最 终 需 要 写 入 整个 表 。 


3.4.3 HBase 共 享 资源 


使 用 MapReduce 读 取 或 者 写 入 HBase 是 很 方便 的 。 这 给 了 我 们 一 
种 手段 来 处 理 HBase 中 的 数据 。HBase 附 带 了 一 些 预 定义 的 MapReduce 作 
业 ， 你 可 以 研究 这 些 源 代码 ， 它 们 是 使 用 MapReduce 访 问 HBase 的 范 
例 。 但 是 我 们 还 能 用 HBase 做 些 什么 呢 ? 

一 种 常见 的 例子 是 支持 大 型 的 Map 侧 联结 (map-side join ) 。 这 种 
情况 下 ， 把 HBase 看 做 是 一 个 建立 了 索引 的 数据 源 ， 供 所 有 map 任务 共 
享 访问 读 取 。 你 会 问 ， 什 么 是 map 侧 联结 ? HBase 如 何 文 持 它 呢 ? 好 问 
题 ! 

让 我 们 回顾 一 下 。 联 结 (join〉 是 一 种 常见 的 数据 操作 。 联 结 的 意 
图 惑 是 在 两 个 不 同 的 数据 集 上 基于 一 个 共同 属性 的 相同 值 把 数据 记录 联 
合 起 来 。 那 个 共同 属性 经 党 叫做 联结 键 (join key) 。 

例如 ， 回 想 一 下 TimeSpent MapReduce 人 作业。 该 作业 生成 一 个 数据 
集 ， 包 仿 UserID 和 他 们 花费 在 TwitBase 网 站 的 TotalTime。 

UserID TimeSpent 





Yvonn66 30S 
Mario23 2S 
Rober4 6S 
Masan46 355s 


你 还 有 一 个 包含 用 户 信 息 的 TwitBase 表 ， 如 下 所 示 : 


UserID Name Email TwitCount 
Yvonn66 Yvonne Marc Yvonn66@unmercantile.com 48 
Masan46 Masanobu Olof Masan46@acetylic.com 47 
Mario23 Marion Scott Mario23@Wahima .com 56 
Rober4 Roberto Jacques Rober4@slidage.com 2 


你 想 知道 用 户 花 在 网 站 上 的 总 时 间 和 他 们 发 出 的 总 推 帖 数 的 比值 。 
现在 相关 数据 分 散在 两 个 不 同 的 数据 集 里 ， 虽 说 这 个 问题 很 简单 。 你 想 


在 一 行 中 联结 用 户 的 所 有 信息 。 这 两 个 数据 集 有 一 个 公共 属性 一 一 
UserID。 这 就 是 联结 键 。 执 行 联结 ， 去 挥 没 用 的 字段 ， 结 果 如 下 : 
UserID TwitCount TimeSpent 


Yvonn66 48 30S 
Mario23 56 2S 
RobeLr4 2 6S 
Masan46 47 35S 


关系 型 数据 库 的 联结 要 比 MapReduce 容易 得 多 。 关 系 型 引擎 围绕 
高 性 能 联结 经 过 了 多 年 的 研究 和 优化 。 像 索引 这 样 的 特性 就 有 助 于 优化 
联结 操作 。 此 外 ， 关 系 型 数据 库 的 数据 一 般 存 放 在 同一 台 物 理 服 务 器 
上 上。 关系 型 数据 库 跨 多 个 服务 器 的 联结 要 复杂 得 多 ， 但 是 不 太 常 见 。 
MapReduce 里 的 联结 意味 着 跨 多 台 服 务 器 的 联结 。 但 是 MapReduce 框 架 
里 的 联结 比 天 系 型 数据 库 跨 多 台 服 务 器 要 容易 一 些 。 联 结 类 型 有 许多 种 
变化 ， 但 是 联结 实现 要 么 是 map 侧 (map-side〉， 要 么 是 reduce 侧 
Creduce-side) 。 这 种 map 侧 或 者 reduce 侧 的 划分 是 基于 两 个 数据 集 记 录 
联结 执行 的 位 置 来 确定 的 。reduce 侧 联结 更 容易 实现 ， 所 以 更 为 常见 。 
我 们 先 讨论 这 种 类 型 。 

1. reduce 侧 联结 

reduce 侧 联结 利用 了 中 间 洗 牌 阶段 ， 把 两 个 数据 集 的 相关 记录 并 列 
放置 到 了 一 起 。 这 个 思路 是 对 两 个 数据 集 做 map 计算 ， 输出 以 联结 键 
为 键 的 键 值 对 。 放 置 在 一 起 后 ， reducer 可 以 处 理 值 的 所 有 组 合 。 让 我 
们 来 编写 这 个 算法 。 

给 定 示 例 数据 ， 使 用 TimeSpent 数 据 的 map 任 务 的 伪 代 码 如 下 : 


map _ timespent (line num, line): 
userid, timespent = split (line) 








record = {"TimeSpent" : timespent, 生成 复合 记录 作为 V2 输出 在 MapReduce 
"type" : "TimeSpent"} 作业 里 很 常见 


emit (userid, record) 


map 任 务 从 k1 输 入 行 中 取出 UserID 和 TimeSpent 值 。 然 后 构建 一 个 包 


$type 和 TimeSpent 属 性 的 字典 。 生 成 [UserID:dictionary] 作 为 [k2,v2] 输 


含 
出 。 





使 用 Users 数 据 的 map 任 务 也 是 类 似 的 。 唯 一 的 不 同 是 去 挥 一 些 无 关 


字段 : 
map_uUSsers (Line_ num, line): 
userid, name, email, twitcount = SP1Lit(1Line) 
record = {"TwitCount" : twitcount, Ss 


vt- 中 
"type" : "TwitCount "} | 没有 种 屋 name 和 email 


emit (userid, record) 


两 个 map 任 务 都 使 用 UserID 作 为 k2 的 值 。 这 使 得 Hadoop 把 同一 用 户 
的 所 有 记录 归 组 在 一 起 。reduce 任 务 就 有 了 完成 联结 所 需要 的 所 有 内 


reduce (userid, records): 
timespent recs = [] 
twitcount recs = [] 


for rec in records: 
if rec.type == "TimeSpent": 


rec.del ("type") 按照 type 

timespent recs.push (rec) 十 “| 分 组 分 好 组 后 , 不 再 需要 
else: ope 

recdel ("type") 


twitcount recs.push (rec) 


for timespent in timespent recs: 


for twitcount in twitcount. recs: 生成 用 户 各 种 可 能 的 twitcount 
emit (userid, merge (timespent, twitcount)) 和 timespent 的 组 合 ， 对 于 本 
-LL 口 ， 


例 ， 应 该 只 有 一 个 组 合 值 
reduce 任 务 把 所 有 相同 类 型 的 记录 归 组 在 一 起 ， 生 成 两 种 类 型 的 所 
有 可 能 组 合作 为 k3 输 出 。 就 这 个 例子 而 言 ， 每 种 类 型 只 有 一 条 记录 ， 因 
此 可 以 简化 计算 逻辑 。 你 也 可 以 在 任务 中 直接 生成 你 想 计算 的 比例 : 
reduce (userid, records): 
for rec in records: 
rec.del ("type") 


merge (records) 
emit (userid, ratiol(lrec["TimeSpent"], rec["TwitCount"])) 


这 个 改进 过 的 新 reduce 任 务 生 成 的 新 联结 数据 集 如 下 : 





UserID ratio 


Yvonn66 30s:48 
Mario23 2S:56 
Rober4 6S :2 
Masan46 35s:47 
这 就 是 最 基本 的 reduce 侧 联结 。reduce 侧 联结 的 一 个 大 问题 是 它 需 
要 洗 牌 和 排序 所 有 的 [k2,v2] 键 值 对 。 对 我 们 的 测试 例子 来 说 ， 这 不 是 大 
问题 。 但 是 如 果 数 据 集 非常 非常 大 ， 每 个 k2 值 有 数 百 万 键 值 对 输出 ， 这 
个 阶段 的 开销 可 能 是 巨大 的 。 
reduce 侧 联结 需要 在 map 和 reduce 任务 之 间 对 数据 进行 洗 牌 和 排 
序 。 这 会 带 来 IO 开 销 ， 尤 其 是 网 络 IO， 而 这 恰恰 是 分 布 式 系统 最 薄弱 的 
环节 。 最 小 化 网 络 IO 会 改善 联结 性 能 。 这 正 是 需要 map 侧 联结 的 地 方 。 
2. map 侧 联结 
map 侧 联 结 这 种 技术 不 像 reduce 侧 联结 那样 普 损 适用 。 其 前 提 条 件 
是 ，map 任务 可 以 从 一 个 数据 集 随机 查找 值 ， 同 时 它们 可 以 遍历 男 一 个 
数据 集 。 如 果 你 想 联 结 两 个 数据 集 ， 其 中 至 少 一 个 可 以 加 载 到 map 任 
务 的 内 存 ， 那 么 问题 就 可 以 解决 了 : 加 载 较 小 的 数据 集 到 内 存 中 的 散 列 
表 ，map 任务 在 过 有 历 另 一 个 数据 集 时 可 以 访问 第 一 个 。 这 种 情况 下 ， 你 
可 以 完全 跳 开 洗 牌 阶段 和 排序 阶段 ， 从 Map 阶 段 直接 输出 最 终结 采 。 让 
我 们 回 到 同一 个 例子 上 。 这 次 你 把 Users 数 据 集 加 载 到 内 存 。 新 的 
map_timespent 任 务 如 下 所 示 : 


map 七 Imespent (line num, line): 
users recs = read timespent ("/path/to/users.csv'") 








userid, timespent = split (line) 

record = {"TimeSpent" : timespent} 

record = merge (record, users recs [userid]) 

emit (userid, ratiol(record["TimeSpent"], record["TwitCount"])) 


和 上 一 版 本 相 比 ， 这 像 是 作弊 ! 但 是 请 记 住 ， 只 有 当 一 个 数据 集 可 
以 完全 装 进 内 存 时 你 才能 使 用 这 种 方法 。 本 例 中 联结 要 快 得 多 。 








使 用 这 种 联结 当然 有 隐 仿 条件。 假设 ， 每 个 map 任 务 处 理 一 个 数据 
切片 ， 也 融 是 一 个 HDFS 数 据 块 “一 般 64 MB 一 128 MB) ， 但 是 加 载 进 
内 存 的 联结 数据 集 是 1 GB。 当 然 1 GB 可 以 放 进 内 存 ， 但 是 为 每 128 MB 
的 联结 数据 生成 一 个 1 GB 数据 集 的 散 列 表 不 是 明智 的 做 法 。 

3. 使 用 HBase 的 map 侧 联结 

在 什么 地 方 用 到 HBase 呢 ? 我 们 最 初 把 HBase 描述 为 一 个 巨大 的 
散 列 表 ， 还 记得 吗 ? 回顾 一 下 map 侧 联结 的 实现 ， 把 users_recs 用 HBase 
中 的 Users 表 代替 。 现 在 你 可 以 联结 巨大 的 Users 表 和 巨大 的 TimeSpent 数 
据 集 了 。 使 用 HBase 的 map 侧 联结 如 下 : 


map_ timespent (line num, line): 
users table = HBase.connect ("Users") 
userid, timespent = split (line) 
record = {"TimeSpent" : timespent) 
record = merge (record, users table.get (userid, "info:twitcount")) 
emit (userid, ratio(record["TimeSpent"], recordl[l"info:twitcount"])) 


把 Users 表 看 做 每 个 map 任 务 可 以 访问 的 一 个 外 部 的 散 列 表 。 你 不 必 
为 每 个 任务 都 创建 散 列 表 对 象 。 也 避免 了 在 reduce 侧 联结 必需 的 洗 牌 阶 
段 涉及 的 所 有 网 络 IO。 概 念 示意 如 图 3-14 所 示 。 





一 由 RegionServer 提 供 服 务 的 region 





map 任 务 从 HDFS 上 读 取 文 件 作 为 数 
一 -一 据 源 ， 并 且 在 HBase 上 执行 随机 的 
Get 或 者 短 Scan 


DataNode DataNode 


DataNode 


图 3-14 使 用 HBase 存 储 碍 找 表 ， 供 map 任 务 用 于 执行 map 侧 联结 
除了 本 节 所 讨论 的 ， 还 有 很 多 种 分 布 式 联结 。 它 们 很 单 用 ， 所 以 
Hadoop 提 供 了 一 个 叫做 hadoop-datajoin 的 contrib JAR 来 简化 使 用 联结 。 


你 已 经 掌握 了 使 用 HBase 足 够 的 背景 知识 ， 也 可 以 利用 HBase 来 优化 其 
他 MapReduce 应 用 。 


3.5 言 局 六 总 





现在 你 领略 了 Hadoop MapReduce 的 全 部 能 力 。JobTracker 按照 最 
优 资 源 利 用 原则 分 配 计算 工作 给 集群 里 的 所 有 TaskTracker。 如 果菜 个 节 
点 失败 ， 男 一 个 节点 会 参与 进来 ， 接 管 计算 任务 并 保证 作业 成 功 执 行 。 

戎 等 运算 

HadoopMapReduce 假 定 你 的 map 和 reduce 任 务 是 朝 等 的 。 意 思 是 map 
和 reduce 任 务 在 相同 输入 数据 上 执行 任意 次 数 可 以 得 到 相同 输出 结果 。 
这 让 MapReduce 在 执行 作业 时 提供 容错 能 力 ， 也 可 以 最 大 限度 地 利用 集 
群 处 理 能 力 。 但 是 执行 有 状态 操作 时 你 必须 特别 小 心 。HBase 的 
Increment 命 令 就 是 这 种 有 状态 操作 的 例子 。 

例如 ， 假 设 你 实现 一 个 计算 行 数 的 MapReduce 作 业 ， 该 作业 在 表 中 
每 读 一 个 键 ， 递 增 一 个 单元 值 。 运 行 作业 时 ，JobTracker 分 配 100 个 
mapper， 每 个 负 贡 1000 行 。 作 业 运 行 过 程 中 ， 一 个 TaskTracker 节 点 便 盘 
出 现 故障 ， 导 致 map 任 务 失败 ，Hadoop 把 任务 指派 给 另 一 个 节点 。 失 败 
之 前 ， 已 经 数 了 750 行 ， 做 了 相应 递增 。 新 节点 接管 任务 后 ， 从 头 开 始 
运行 。 那 750 行 就 被 数 了 两 表 。 

所 以 不 要 在 mapper 里 递增 计数 器 ， 更 好 的 办 法 是 每 个 mapper 发 出 
["count",1] 键 值 对 。 失 败 的 任务 重启 后 ， 它 们 的 输出 不 会 重复 计算 。 在 
reducer 里 加 总 键 值 对 ， 在 那里 写 出 一 个 值 。 这 也 可 以 避免 递增 单元 所 在 
的 机 器 承受 过 高 负担 。 

另外 一 个 值得 注意 的 事情 是 推测 执行 《speculative execution ) 。 当 
某 个 任务 执行 得 特别 慢 并 且 集 群 有 足够 资源 时 ，Hadoop 会 安排 额外 的 
任务 副本 让 它们 竞争 。 任 何 一 个 副本 任务 完成 后 ，Hadoop 杀 掉 其 他 的 





























副本 。 这 个 特性 可 以 通过 Hadoop 配 置 局 用 /禁用 ， 如 果 MapReduce 作 业 
需要 访问 HBase 请 禁用 它 。 

本 节 提 供 了 一 个 完整 的 从 MapReduce 应 用 使 用 HBase 的 例子 。 请 记 
住 ， 在 HBase 上 运行 MapReduce 作业 会 给 集群 带 来 严重 的 负担 。 请 不 要 
在 提供 低 延 迟 查 询 服 务 的 同一 集群 上 运行 MapReduce 人 作业， 至 少 当 需 要 
维持 OLTP 类 型 的 服务 水 平 协议 SLA) 时 不 要 运行 ! 否则 当 运 行 
MapReduce 作 业 时 在 线 服务 会 大 受 影响 。 甚 至 可 以 考虑 : 在 HBase 集 群 
里 根本 就 不 运行 JobTracker 或 TaskTracker。 除 非 你 绝对 需要 ， 人 否则 请 
把 资源 留 给 HBase 的 进程 使 用 。 


3.5.1 编写 MapReduce 应 用 


HBase 运 行 在 Hadoop 上 ， 尤 其 是 在 HDFS 上 。 在 HDFS 里 ，HBase 的 
数据 束 像 其 他 数据 一 样 分 区 和 建立 副本 。 这 意味 着 在 HBase 中 存储 的 数 
据 上 运行 MapReduce 应 用 和 常规 MapReduce 应 用 一 样 。 这 就 是 
MapReduce 计算 例子 和 多 线程 例子 执行 同样 的 HBase 扫 摘 命 令 但 是 吞吐 
量 却 高 得 多 的 原因 。MapReduce 计 算 方式 中 ， 扫 描 是 在 多 个 节点 上 并 行 
执行 的 。 这 消除 了 所 有 数据 汇总 到 一 台 机 器 的 瓶 贷 。 如 果 你 在 运行 
HBase 的 集群 上 运行 MapReduce， 请 充分 利用 任何 可 能 的 并 行 放 置 。 莎 
士 比 亚 作 品 的 计数 例子 完整 代码 如 代码 清单 3-1 所 示 。 

代码 清单 3-1 莎士比亚 作品 的 计数 示例 














package HBaseIA.TwitBase.mapreduce; 
/i | 

Ea i 
public class CountShakespeare { 省 略 导 人 细节 


public static class Map 
extends TableMapper<Text, LongWritable> { 


public static enum Counters {ROWS, SHAKESPEAREAN}; 


private boolean containsShakespeare (String msg) { 


As 
} 这 里 是 自然 语言 处 理 
@Override 好 名 
protected void map( 
ImmutableBytesWritable rowkey, 
Result result, 
Context context) { 
byte[] b = result .getColumnLatest( 
TwitsDAO.TWITS FAM, 
TwitsDAO.TWIT COL) .getValue(); 
String msg = Bytes.tostring(b); Counters 是 一 
if (msg != null && !msg.isEmpty()) 种 在 Hadoop 作业 
context .getCounter (Counters.ROWS) .increment (1) ; i 
if (containsShakespeare (msg)) 里 收集 监控 指标 
的 简单 的 方法 


context .getCounter (Counters .SHAKESPEAREAN) .increment (1) ; 


} 
} 


public static void main(String[] args) throws Exception { 
Configuration conf = HBaseConfiguration.create(); 
Job job = new Jobl(conf, "TwitBase Shakespeare counter"); 
job.setJarByClass (CountShakespeare.class); 
Scan Scan = new Scan(); 
scan.addColumn (TwitsDAO.TWITS FAM, TwitsDAO.TWIT COL); 
TableMapReduceUtil.initTableMapperJob!( 


Bytes.toString (TwitsDAO.TABLE NAME), 就 像 在 多 线程 例 
scan, 子 里 执行 的 扫描 
Map.class, 


ImmutableBytesWritable.class, 
Result .class, 
job) ; 


job.setOutputFormatClass (NullOutputFormat .class); 
job.setNumReduceTasks (0) ; 
System.exit (job.waitForCompletion(true) ? 0 : 1); 


CountShakespeare 相 当 简 单 ， 它 包括 一 个 Mapper 实 现 和 一 个 main 方 
法 。 它 还 利用 了 HBase 特 有 的 MapReduce 辅 助 类 TableMapper 和 


TableMapReduceUtil 实 用 类 ， 我 们 本 章 前 面 介 绍 过 它们 。 也 请 注意 ， 这 
里 没有 reducer。 这 个 例子 不 需要 在 Reduce 阶 段 执行 额外 的 计算 。 相 反 ， 
通过 作业 计数 器 收集 map 输 出 即 可 。 


3.5.2 运行 MapReduce 心 


你 想 看 看 运行 MapReduce 作 业 是 什么 样子 吗 ? 我 们 也 是 。 先 往 
TwitBase 里 面 加 载 一 些 数 据 。 下 面 两 个 命令 加 载 100 个 用 户 ， 并 且 为 每 
个 用 户 加 载 100 条 推 帖 : 

$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.LoadUsers 100 
$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.LoadTwits 100 
现在 有 了 一 些 数据 ， 你 可 以 运行 CountShakespeare 应 用 : 
$ java -cp target/twitbase-1.0.0.jar \ 


HBaseIA.TwitBase.mapreduce.CountShakespeare 


19:56:42 INFO mapred.JobClient: Running job: job local 0001 
19:56:43 INFO mapred.JobClient: map 0% reduce 0% 


19:56:46 INFO mapred.JobClient: map 100% reduce 0% 

19:56:46 INFO mapred.JobClient: Job complete: job local 0001 
19:56:46 INFO mapred.JobClient: Counters: 11 

19:56:46 INFO mapred.JobClient: CountShakespeare$Map$Counters 
19:56:46 INFO mapred.JobClient: ROWS=9695 

19:56:46 INFO mapred.JobClient.: SHAKESPEAREAN=4743 


按照 我 们 的 莎士比亚 作品 引用 分 析 专 有 算法 ， 将 近 50% 的 数据 影射 
到 莎士比亚 ! 使 用 计数 器 很 有 趣 ， 如 果 写 回 到 HBase 如 何 呢 ? 我 们 开发 
了 类 似 的 算法 专门 检查 对 哈姆雷特 的 引用 。Mapper 和 莎士比亚 作品 例 
子 相 似 ， 只 是 [k2,v2] 输 出 数据 类 型 是 [Immutable BytesWritable,Put] 
它们 是 HBase 行 键 和 上 一 章 学 习 的 Put 命令 的 实例 。reducer 代 码 如 下 : 








public static class Reduce 
extends TableReducer< 
ImmutableBytesWritable, 
Put, 
ImmutableBytesWritable> { 


@Override 
protected void reducel( 
ImmutableBytesWritable rowkey, 
Iterable<Put> values, 
Context context) { 
Iterator<Put> i = values.iterator(),; 
if (i.hasNext()) { 
context .write(rowkey, i.next()).,; 
} 
} 
} 


就 这 些 。reducer 实 现 接收 [k2,{v2j]、 行 键 和 Put 列 表 作 为 输入 。 本 
例 中 ， 每 个 Put 设 置 info:hamlet_tag 列 为 tue。 针 对 每 个 用 户 只 执行 一 次 
Put， 因 此 只 有 第 一 个 发 出 到 输出 上 下 文 对 象 。 生 成 的 [k3,v3] 键 值 对 类 
型 也 是 [Immutable BytesWritable,Put]。 让 Hadoop 系 统 处 理 Put 的 执行 ， 保 
证 reduce 实 现 昭 等 特性 。 





3.6 大 规模 条 J 可 用 性 和 可 靠 性 


在 分 布 式 系统 语 境 下 ， 你 经 常会 昕 到 术语 可 扩展 的 (scalable) 、 
可 用 的 (available〉 和 可 靠 的 (reliable〉。 我 们 认为 ， 这 些 术 语 不 代表 
绝对 的 、 明 确 的 系统 品质 ， 而 是 一 组 可 以 有 不 同 值 的 参量 。 换 句 话 说 ， 
不 同系 统 、 不 同 大 小 规模 ， 某 些 情况 下 是 可 用 的 和 可 靠 的 ， 但 其 他 情况 


下 就 不 是 。 这 些 特性 是 系统 架构 选择 的 需要 。 这 将 我 们 市 进 CAP 定 理 
L247 的 范畴 ， 这 总 是 带 来 一 次 有 趣 的 讨论 和 有 吸引 力 的 阅读 2 。 不 同 
的 人 有 不 同 的 看 法 名 | ， 我 们 不 去 对 各 种 数据 库 系 统 CAP 定 理 是 什么 含 
义 纠缠 细节 和 进行 学 术 研 究 。 让 我 们 跳 到 在 HBase 语 境 中 可 用 性 
Cavailability) 和 可 靠 性 〈reliability) 是 什么 含义 和 如 何 实 现 它 们 的 主 
题 上 。 这 些 特性 从 构建 应 用 系统 角度 来 看 是 有 用 的 ， 对 于 应 用 开 及 人 
员 ， 可 以 帮助 你 理解 采用 HBase 做 后 端 数据 存储 时 你 可 以 期 竺 什么 以 及 
如 何 影响 SLA 的 。 

1. 可 用 性 

HBase 语 境 中 可 用 性 定义 为 系统 处 理 故 障 的 能 力 。 最 常见 的 故障 会 
导致 HBase 集群 里 一 个 或 几 个 节点 脱离 集群 和 停止 服务 请 求 。 这 可 能 是 
因为 节点 出 现 硬件 故障 或 者 由 于 某 种 原因 软件 功能 失常 。 任 何 这 种 故障 
都 可 以 认为 是 那个 节点 和 集群 其 他 部 分 的 网 络 隔离 。 

当 RegionServer 由 于 某 种 原因 不 能 联络 时 ， 它 所 服务 的 数据 会 切换 
到 其 他 RegionServer。HBase 能 够 这 样 做 ， 从 而 保持 高 可 用 性 。 但 是 如 果 
发 生 网 络 隔 离 ， 并 且 HBase master 脱离 了 集群 或 者 ZooKeeper 脱 离 了 集 
群 ， 工 作 节点 束 不 能 工作 了 。 回 到 我 们 之 前 所 说 的 : 可 用 性 最 好 用 系统 
可 以 处 理 的 故障 种 类 和 不 能 处 理 的 故障 种 类 来 定义 。 它 不 是 一 个 二 元 特 
性 ， 而 是 有 不 同 程度 的 特性 。 

高 可 用 性 可 以 通过 预防 性 部 团体 系 来 实现 。 例 如 ， 如 果 你 有 多 个 
master， 把 它们 放 在 不 同 机 架 里 。 第 10 章 将 详细 讨论 HBase 部 署 。 

2. 可 靠 性 和 持久 性 

可 靠 性 是 数据 库 语 境 中 通用 的 术语 ， 大 多 数 情 况 下 可 以 认为 是 数据 
持久 性 和 性 能 保证 的 结合 。 本 市 的 目标 是 检查 HBase 的 数据 持久 性 方 
面 。 可 以 想象 ， 当 你 在 数据 库 上 搭建 应 用 系统 时 数据 持久 性 非常 重要 。 
设备 /dev/null 写 性 能 倒是 最 快 ， 但 是 一 旦 你 写 到 /dev/null， 数 据 就 没有 

















了 。 男 一 方面 ， 和 凭借 系统 架构 的 特点 HBase 在 数据 持久 性 方面 有 必然 的 
保证 。 
3.6.1 HDFS 作为 底层 存 人 


底层 存储 的 两 个 特性 可 以 帮助 HBase 实 现 提 供给 客户 端的 可 用 性 和 
可 靠 性 。 

1. 单一 命名 空间 

HBase 把 数据 存储 在 一 个 文件 系统 上 。 所 有 RegionServer 可 以 访问 履 
盖 整 个 集群 的 文件 系统 。 文 件 系统 为 集群 里 所 有 RegionServer 提 供 单一 
命名 空间 。 一 个 RegionServer 读 写 的 数据 可 以 为 其 他 所 有 RegionServer 
读 写 。 这 让 HBase 满足 可 用 性 保证 。 如 果 一 个 RegionServer 宕 机 ， 任 何 
其 他 RegionServer 都 可 以 从 底层 文件 系统 读 取 数据 ， 接 管 第 一 个 
RegionServer 服 务 的 region 〈 见 图 3-15) 。 
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另 一 台 主 机 接管 该 region， 基 于 保存 在 
HDFS 里 的 HFile 开 始 提 供 服 务 。 丢 失 的 
HFile 副 本 将 复制 到 另 一 个 DataNode 上 。 
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图 3-15 nn (例如 ，Java 进 程 

死 了 或 者 整个 物理 节点 起 火 了 ) ， 男 一 个 RegionServer 将 接管 第 一 个 
RegionServer 所 服务 的 region 并 开始 为 它们 服务 。HDFS 对 所 有 
RegionServer 提 供 单 一 命名 空间 ， 任 何 RegionServer 都 可 以 访问 其 他 
RegionServer 存 放 的 文件 ， 所 以 文 持 上 述 做 法 

这 一 点 可 以 想象 成 ， 你 有 一 个 网 络 连接 存储 (NAS) ， 存 储 数据 并 

ee 这 在 理论 上 是 可 行 的 ， 但 在 设计 与 实现 上 不 太 现 
。 所 有 服务 强 读 写 一 个 NAS 意味 着 硬盘 IO 会 个 集群 和 NAS 之 间 的 连 


接 所 阻塞。 你 可 以 使 用 更 宽 的 连接 ， 但 它们 仍然 会 限制 你 的 规模 。 
HBase 在 设计 上 选择 了 分 布 式 文件 系统 ， 紧 密 结合 HDFS。HDFS 为 
HBase 提 供 了 单一 命名 空间 ， 大 多 数 集群 里 DataNode 和 RegionServer 放 
置 在 同一 台 机 器 上 。 这 有 利于 RegionServer 读 写本 地 DataNode。 因 此 尽 
可 能 节省 了 网 络 IO。 虽 然 还 会 发 生 网 络 IO， 但 是 这 种 优化 减 小 了 网 络 开 
销 。 

对 现在 的 TwitBase 应 用 ， 你 使 用 了 HBase 单 机 模式 。HDFS 不 文 持 
HBase 单 机 模式 。HBase 单 机 模式 把 所 有 数据 写 在 本 地 文件 系统 上 。 第 9 
章 将 详细 介绍 HDFS 文 持 的 全 分 布 方式 HBase 部 署 。 

全 分 布 模式 下 ， 你 将 配置 HBase 写 入 HDFS 上 一 个 预先 指定 的 目 
录 ， 这 个 目录 通过 参数 hbase.rootdir 设置 。 单 机 模式 下 ， 这 个 目录 指向 
默认 值 file:///tmp/HBase-${user.name}/hbase。 

2. 可 靠 性 和 抗 故障 能 

HBase 假 定 存放 在 底层 存储 系统 上 的 数据 即使 在 发 生 故 障 时 也 可 以 
访问 。 如 果 运 行 RegionServer 的 服务 器 宕 机 ， 其 他 RegionServer 应 该 可 以 
接 过 分 配给 那个 RegionServer 的 region 并 且 提 供 服 务 。 前 提 是 服务 器 宕 机 
不 会 导致 底层 存储 上 的 数据 丢失 。 像 HDFS 这 样 的 分 布 式 文件 系统 通过 
复制 数据 和 保存 多 个 副本 来 实现 这 一 点 。 同 时 ， 小 比例 服务 器 的 宕 机 不 
应 该 严重 影响 底层 存储 的 性 能 。 

理论 上 ，HBase 可 以 运行 在 任何 提供 这 种 特性 的 文件 系统 上 。 但 是 
HBase 在 其 发 展 过 程 中 一 直 紧 密 结合 HDFS。 除 了 抗 故障 能 力 ，HDEFS 提 
供 了 某 些 写 的 语义 ，HBase 用 来 为 你 写 入 的 每 个 字 节 保证 持久 性 。 


3.7 小 结 


























本 章 我 们 介绍 了 相当 多 的 基础 知识 ， 其 中 许多 是 初级 水 平 。Hadoop 
还 有 很 多 知识 ， 我 们 不 能 在 一 章 里 都 覆盖 到 。 你 现在 应 该 基本 了 解 





Hadoop， 以 及 HBase 如 何 使 用 Hadoop。 实 践 中 ， 与 Hadoop 的 这 种 密切 联 
系 给 HBase 部 署 珊 来 了 许多 好 处 。 下 面 回顾 一 下 我 们 讨论 过 的 内 容 。 

HBase 是 一 种 搭建 在 Hadoop 上 的 数据 库 。 它 依靠 Hadoop 来 实现 数据 
访问 和 数据 可 靠 性 。HBase 是 一 种 以 低 延 人 运 为 目标 的 在 线 系统 ， 而 
Hadoop 是 一 种 为 否 吐 量 优化 的 离线 系统 。 这 种 互补 关系 造 束 了 一 种 强大 
的 、 灵 活 的 数据 平台 ， 可 以 用 来 搭建 水 平 扩展 的 数据 应 用 。 

Hadoop MapReduce 是 一 种 分 布 式 计算 框架 。 它 是 一 种 容错 的 、 面 
问 批 处 理 的 计算 模型 。MapReduce 程 序 是 由 map 和 reduce 运 算 组 成 的 作 
业 。 单 个 任务 的 前 提 是 满足 梭 等 性 (idempotent) 。MapReduce 使 用 
HDFS 来 把 任务 分 配 到 文件 系统 上 的 数据 块 和 移动 计算 到 数据 

(distributing the computation to the data) 。 这 实现 了 极 小 分 配 开 销 的 高 
度 并 行 化 计算 程序 。 

HBase 设 计 上 文 持 MapReduce 访 问 。 它 提供 了 TableMapper 和 和 
TableReducer 来 简化 MapReduce 应 用 的 实现 : TableMapper 人 允许 
MapReduce 应 用 从 HBase 里 轻松 恋 取 数据 ，TableReducer 允许 从 
MapReduce 轻松 把 数据 写 回 到 HBase。 在 Map 和 Reduce 阶 段 使 用 HBase 
键 值 API 访 问 也 是 可 能 的 。 在 所 有 任务 需要 随机 访问 相同 数据 的 情况 下 








是 很 有 帮助 的 。 通 常 利 用 这 个 特点 来 实现 分 布 式 Map 侧 联结 。 
如 果 你 很 好 奇 ， 希 望 学 习 更 多 关于 Hadoop 如 何 工作 或 者 研究 
MapReduce 的 其 他 技术 ，Tom White 编 写 的 《Hadoop 权 威 指南 》 
CO’Reilly, 2009) 和 Chuck Lam 编 写 的 《Hadoop 实 战 》 (Manning, 
2010) 是 最 好 的 两 本 参考 书 。 
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介绍 完 基础 部 分 以 后 ， 第 二 部 分 将 研究 更 多 高 级 主题 。 第 4 章 将 详 
细 介 绍 HBase 模 式 (schema) 设计 。 这 一 章 将 继续 扩展 第 2 章 建 立 的 示 
例 应 用 ， 深 入 襄 析 在 HBase 中 如 何 为 你 的 应 用 系统 进行 数据 建 模 。 这 一 
章 将 帮助 你 理解 如 何 对 模式 设计 的 选择 做 出 取舍 。 第 5 章 将 介绍 如 何 建 
并 和 使 用 协 人 处理 器 (coprocessor) ， 这 是 在 HBase 和 集群 中 植 入 计算 逻 
辑 ， 使 计算 接近 存储 数据 的 一 种 高 级 搁 巧 。 第 6 章 介 绍 如 何 使 用 其 他 基 
于 或 者 不 是 基于 JVM 的 客户 端 库 访问 HBase。 掌 握 第 二 部 分 内 容 后 ， 
你 将 可 以 在 你 的 应 用 系统 中 有 效 地 使 用 HBase， 也 可 以 基于 HBase 搭 建 
非 Java 应 用 系统 。 





第 4 音 HBase 表 设 计 


本 章 涵 善 的 内 容 

加 HBase 模 式 设计 概 食 

加 把 关系 型 建 模 知识 映射 到 HBase 世 界 

加 表 定 义 高 级 参数 

加 使 用 HBase 过 滤器 优化 读 性 能 

在 前 3 章 中 ， 你 使 用 JavaAPI 访 问 HBase， 并 且 搭 建 了 一 个 示例 应 用 
来 学 习 如 何 运 用 它们 。 作 为 搭建 应 用 系统 TwitBase 的 一 部 分 ， 你 在 
HBase 中 创建 了 表 来 存储 数据 。 我 们 给 你 提供 了 表 定 义 ， 并 没有 多 加 思 
索 为 什么 如 此 创建 它 。 换 句 话 说 ， 我 们 没有 讨论 需要 多 少 个 列 族 ， 一 个 
列 族 需要 多 少 列 ， 什 么 数据 应 当 存 入 列 名 中 ， 以 及 什么 数据 应 当 存 入 单 
元 ， 等 等 。 本 章 介 绍 HBase 模式 (schema) 设计 ， 将 讨论 在 HBase 中 
设计 模式 和 行 键 时 应 该 考虑 的 东西 。HBase 的 模式 不 同 于 关系 型 数据 库 
的 模式 。HBase 要 简单 得 多 ， 需 要 考虑 的 不 多 。 有 时 我 们 也 把 HBase 称 
为 无 模式 数据 库 。 但 是 为 了 对 应 用 系统 的 访问 模式 进行 性 能 优化 ， 模 式 
的 简单 也 赋予 你 更 多 调整 的 空间 。 有 一 些 模式 写 性 能 很 棒 ， 但 是 当 读 取 
同样 数据 时 表现 却 不 好 ， 或 者 正好 相反 。 

为 了 学 习 设计 HBase 模式 ， 这 里 将 继续 使 用 TwitBase 应 用 系统 ， 
并 引入 新 功能 。 到 目前 为 止 ，TwitBase 的 功能 还 相当 简单 。 现 在 只 有 用 
户 和 推 帖 功能 ， 对 于 一 个 应 用 系统 来 说 这 些 还 不 够 ， 除 非 能 够 促进 社交 
化 互动 和 能 够 阅读 别人 的 推 帖 ， 否 则 是 不 会 产生 用 户 流量 的 。 考 虑 到 用 
户 希 望 能 够 关注 其 他 用 户 ， 所 以 让 我 们 为 此 创建 一 些 表 。 

注意 本 章 继 续 沿 用 本 书 一 直 使 用 的 方法 ， 通 过 运行 一 个 例子 来 介 
绍 和 解释 概念 。 你 将 从 一 个 简单 的 模式 设计 开始 ， 不 断 改 善 它 ， 同 时 我 


























们 会 介绍 相关 的 重要 概念 。 





4.1 如 但 模式 设 二 


你 可 以 想到 ，TwitBase 中 用 户 希 望 关 注 其 他 用 户 的 推 帆 。 为 了 实现 
这 个 功能 ， 第 一 步 是 维护 一 个 特定 用 户 的 关注 对 象 列表 。 例 如 ， 
TheFakeMT 关注 了 TheRealMT 和 HRogers。 为 了 得 到 TheFakeMT 应 该 
看 到 的 所 有 推 帖 ， 你 需要 先 碍 找 列 表 {TheRealMT, HRogers}， 然 后 读 出 
列表 中 每 个 用 户 的 推 帖 。 这 个 信息 需要 存放 在 HBase 表 中 。 

让 我 们 思考 一 下 这 个 表 的 模式 。 当 我 们 说 到 模式 〈schema) ， 请 考 
虑 下 面 这 些 内 容 : 

加 这 个 表 应 该 有 多 少 个 列 族 ? 

四 列 族 使 用 什么 数据 ? 

晶 每 个 列 族 应 该 有 多 少 列 ? 

是 列 名 应 该 是 什么 ? 尽管 列 名 不 必 在 建 表 时 定义 ， 但 是 读 写 数据 时 
是 需要 知道 的 。 

加 单元 存放 什么 数据 ? 

加 每 个 单元 存储 多 少 个 时 间 版 本 ? 

晶 行 键 结构 是 什么 ? 应 该 包括 什么 信息 ? 

有 人 可 能 会 争辩 说， 模式 只 需要 考虑 在 建 表 时 预先 定义 的 东西 ， 还 
有 人 会 说 ， 这 里 提 到 的 所 有 东西 也 只 不 过 是 模式 设计 的 一 部 分 。 这 些 都 
是 值得 参与 的 讨论 。NoSQL 是 个 相当 新 的 领域 ， 术 语 的 准确 定义 正在 
形成 中 。 但 是 我 们 认为 ， 因 为 模式 影响 到 表 结 构 和 如 何 读 写 表 ， 把 所 有 
这 些 东西 放 进 宽泛 的 模式 设计 是 很 重要 的 。 这 也 是 下 面 要 做 的 事情 。 

4.1.1 问题 建 模 
让 我 们 回 到 这 张 表 ， 这 里 需要 存储 一 个 特定 用 户 关 注 什 么 用 户 的 数 




















据 。 这 张 表 有 两 种 访问 模式 : 读 出 全 部 用 户 列表 和 和 碍 询 某 指定 用 户 是 否 
在 列表 里 。“TheFakeMT 关注 TheRealMT 了 吗 ? ”假设 TheFakeMT 想 知道 
TheRealMT 的 一 切 ， 这 是 一 个 有 实质 意义 的 问题 。 这 时 ， 你 的 兴趣 在 于 
确认 TheRealMT 是 否 在 TheFakeMT 的 关注 对 象 列表 里 。 一 个 可 能 的 方案 
是 每 个 用 户 对 应 一 行 ， 以 用 户 ID 作 为 行 键 ， 每 列 代表 该 用 户 关 注 的 人 。 

还 记得 列 族 吗 ? 到 目前 为 止 ， 因 为 没有 更 多 需要 ， 你 只 使 用 了 一 个 
列 族 。 但 是 这 张 表 需要 几 个 列 族 呢 ? TheFakeMT 关注 对 象 列 表 里 的 所 
有 用 户 都 有 可 能 需要 被 确认 是 否 存在 ， 从 访问 模式 看 ， 你 无 法 区 分 彼 
此 。 你 不 能 假定 列表 里 的 某 个 用 户 比 其 他 用 户 被 访问 的 可 能 性 更 大 。 从 
这 一 点 可 以 推断 被 关注 用 户 列表 应 该 使 用 同一 个 列 族 。 

如 何 得 出 这 个 结论 呢 ? 一 个 特定 列 族 的 所 有 数据 在 HDFS 上 会 有 一 
个 物理 存储 。 这 个 物理 存储 可 能 由 多 个 HFile 组 成 ， 理 想 情 况 下 可 以 通 
过 合并 得 到 一 个 HFile。 一 个 列 族 的 所 有 列 在 人 硬盘 上 存放 在 一 起 ， 使 用 
这 个 特性 可 以 把 不 同 访问 模式 的 列 放 在 不 同 列 族 ， 以 便 隔 离 它 们 。 这 也 
是 HBase 被 称 为 面向 列 族 的 存储 (column-family-oriented store) 的 原 
因 。 在 打算 创建 的 这 张 表 里 ， 你 不 需要 把 某 个 被 关注 用 户 和 其 他 用 户 分 
开 考 虑 。 至 少 现在 如 此 处 理 是 合理 的 。 为 了 存储 这 些 关 系 ， 创 建 一 个 名 


为 follows 的 新 表 ， 如 图 4-1 所 示 。 
行 键 : 


userid 

















列 族 : follows 
列 限定 符 : 
被 关注 用 户 编号 


单元 值 : 被 关注 用 户 ID 
图 4-1 follows 表 ， 存 放 一 个 特定 用 户 的 关注 对 象 列表 
你 可 以 使 用 第 2 章 学 习 的 Shell 或 Java 客 户 端 创建 表 。 但 是 先 让 我 们 
深入 思考 一 下 ， 确 定 你 可 以 得 到 最 优 的 表 设 计 。 请 记 住 一 旦 创建 了 表 ， 


改变 任何 列 族 都 需要 先 让 表 下 线 。 
在 线 迁 移 





HBase 0.92 有 一 个 在 线 模 式 迁 移 的 试验 性 功能 ， 就 是 在 改变 列 族 时 
不 必 让 表 下 线 。 我 们 不 推荐 把 这 种 做 法 作为 常规 实践 。 预 先 设 计 好 你 的 
表 将 更 有 帮助 。 


现在 的 表 设 计 如 图 4-1 所 示 ， 一 个 存 有 数据 的 表 如 图 4-2 所 示 。 
单元 值 






列 限定 符 follows 


mk 
ea | oem | | 
图 4-2 存 有 样 例 数据 的 follows 表 。1:TheRealMT 代 表 列 族 follows 中 
列 限 定 符 1 对 应 的 单元 ， 其 值 是 TheRealMT。 假 马 元 吐 温 
CTheFakeMT) 想 知道 真 马克 吐 温 (TheRealMT)〉 的 所 有 事情 ， 所 以 他 
不 仅 关 注 了 真 杞 元 吐 温 ， 而 且 关 注 了 他 的 粉 缘 、 妻 子 和 朋友 。 不 要 上 脸 ， 
是 吧 ? 真 马 克 吐 温 就 很 简单 ， 只 想 了 解 他 的 朋友 和 妻子 
现在 你 需要 检验 这 张 表 是 否 满足 你 的 需求 。 为 此 ， 重 要 的 事情 是 定 
义 访 问 模 式 ， 也 就 是 ， 应 用 系统 如 何 访问 HBase 表 里 的 数据 。 理 想 情 况 
下 ， 在 整个 过 程 中 你 应 该 尽早 这 样 做 。 
注意 在 模式 设计 流程 中 尽早 定义 访问 模式 ， 以 便 通 过 它们 检验 你 
的 设计 决定 。 
闲话 少 说 ， 让 我 们 现在 就 试 试 。 为 了 定义 访问 模式 ， 第 一 步 最 好 定 
义 你 想 使 用 这 张 表 回答 什么 问题 。 例 如 ， 在 TwitBase 中 ， 你 想 用 这 张 表 
回答 , “TheFakeMT 关 注 了 谁 ? ?” 褒 着 这 个 方 癌 进一步 思考 ， 你 会 有 下 面 
这 些 问题 。 
(1) TheFakeMT 关 注 了 谁 ? 
(2) TheFakeMT 关 注 TheRealMT 了 吗 ? 















(3) 谁 关注 了 TheFakeMT? 

(4) TheRealMT 关 注 TheFakeMTJ 了 吗 ? 

问题 2 和 问题 4 是 相同 的 ， 只 是 名 字 互 换 位 置 。 留 给 你 的 是 前 3 个 问 
题 。 这 是 个 不 错 的 起 点 ! 

“TheFakeMT 关 注 了 谁 ? ”你 可 以 在 刚 创建 的 表 上 执行 一 个 简单 的 
getO 调 用 来 回答 这 个 问题 。 访 调用 会 给 你 返回 整个 行 ， 允 有 历 整个 列表 就 
能 找到 TheFakeMT 关注 的 用 户 。 代 码 如 下 所 示 : 

Get gg = new Get (Bytes.toBytes ("TheFakeMT"))., 
Result result = followsTable.get(g).; 

返回 的 result 集 合 可 以 用 来 回答 问题 1 和 问题 2。 返 回 的 整个 列表 给 

出 问题 1 的 答案 。 你 可 以 创建 一 个 数组 列表 ， 如 下 所 示 : 


List<String> followedUsers = new ArrayList<String>(), 
List<KeyValue> list = result.1list(); 
Iterator<KeyValue> iter = list.iterator(); 
while(iter.hasNext ()) { 

KeyValue kv = iter.next  (); 

followedUsers.add (Bytes.toSstring (kv.getValue())); 





回答 问题 2 则 需要 过 历 整个 列表 ， 检 查 TheRealMT 是 否 存在 。 相 
应 的 代码 和 上 一 段 代 人 码 类 似 ， 但 不 再 创建 一 个 数组 列表 ， 而 是 每 一 步 进 
行 比 较 检 查 : 
String followedUser = "TheRealMT"; 
List<KeyValue> list = result.list(),; 
Iterator<KeyValue> iter = list.iterator(); 
while(iter.hasNext ()) { 
KeyValue kv = iter.next(); 
if(followedUser.equals (Bytes.toSstring(kv.getValue()))); 
return true; 


} 


return false; 


不 能 再 简单 了 ， 对 吗 ? 让 我 们 继续 努力 ， 确 保 你 的 表 设 计 是 最 好 
的 ， 且 在 面 对 各 种 预期 的 访问 模式 时 性 能 表现 最 优 。 





现在 你 的 表 设 计 可 以 回答 前 面 列表 里 4 个 问题 中 的 2 个 。 你 不 确定 是 
售 可 以 回答 另外 2 个 问题 ， 你 也 没有 定义 表 的 写 模 式 。 到 目前 为 止 的 4 个 
问题 只 是 定义 了 表 的 读 模 式 。 

从 TwitBase 角 上 度 看 ， 可 以 预期 及 生 下 面 事 情 时 需要 写 数据 到 
HBase: 

旧 一 个 用 户 关 证 了 示人 人 

一 个 用 户 取消 关注 菜 人 。 

让 我 们 看 看 这 张 表 ， 基 于 上 述 写 模式 尽量 找 出 能 够 优化 的 地 方 。 当 
用 户 增 加 一 个 新 关注 时 ， 客 户 端 需要 做 些 处 理 ， 需 要 在 用 户 已 经 关注 的 
对 象 列表 里 增加 一 个 对 象 。 当 TheFakeMT 新 关注 一 个 用 户 时 ， 你 需要 知 
道 这 个 用 户 是 用 户 列 表 里 的 第 5 个 。 如 果 不 查 询 HBase 表 ， 客 户 端 代码 并 
不 知道 这 个 信息 。 还 有 ， 如 果 不 指定 列 限定 符 ， 也 没有 办 法 要 求 HBase 
在 已 有 行 上 增加 一 个 单元 。 为 了 解决 这 个 问题 ， 你 必须 在 某 个 地 方 维护 
一 个 计数 器 。 最 好 的 地 方 是 在 同一 行 中 。 本 例 中 ， 表 的 样子 如 图 4-3 上 所 


外。 
follows 

















eam | ss | 20m | ol | 
图 4-3 follows 表 每 行 有 一 个 计数 器 来 跟踪 任何 指定 用 户 当时 所 关注 
的 用 户 数 量 
count 列 能 让 你 快速 知道 任何 用 户 所 关注 的 用 户 数量 。 你 可 以 通过 
读 取 count 列 而 不 是 遍历 整个 列表 来 回答 “TheFakeMT 关 注 了 多 少 





人 ?”。 进 展 不 错 ! 也 请 注意 : 你 不 需要 改变 表 的 定义 。 这 就 是 HBase 的 
无 模式 数据 模型 。 
器 关 注 用 户 列 表 中 增加 一 个 新 用 户 需 要 儿 步 ， 大 致 步 又 如 图 4-4 所 


NE 
需要 更 新 的 行 








TheFakeMT | 1:TheRealMT | 2:MTFanBoy 4:HRogers (| 
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TheFakeMT : follows: {count -> 4} 


@) | 递增 计数 
客户 端 代码 : TheFakeMT : follows: {count -> 9 
Ee 
更 新 计数 器 
@ 增加 新 条 目 9 i 


@ 把 新 数据 写 入 HBase 
TheFakeMT : follows: {5 -> (Ceranpoy?) count -> 从 


9 
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图 4-4 基于 当前 的 表 设 计 ， 往 关注 用 户 列表 里 增加 新 用 户 所 需要 的 


步骤 


问 关 注 用 户 列 表 增 加 一 个 新 用 户 的 代码 如 下 : 
Get g = new Get (Bytes.toBytes ("TheFakeMT'" ) ) ; 
g.addColumn (Bytes .上 toBytes ("follows"), 

Bytes.toBytes ("count"),; aes Si 
Result r = es Dobe 从 表 里 获 取 当 前 
byte [] count bytes = r.getVvalue (Bytes.toBytes ("follows"), 计数 

Bytes.toBytes ("count")); 

int count = Bytes.toInteger (count bytes); 
Count++; 
String newUserFolowed = "MTFanBoy2"; 
Put p = new Put (Bytes.toBytes ("TheFakeMT")); 
p.add(Bytes.toBytes ("follows"), 

Bytes.toBytes (count), VE 

Bytes.toBytes (newUserFollowed)); 递增 计数 并 写 入 
p.add(Bytes.toBytes ("follows"), 新 条 目 

Bytes.toBytes ("count"), 

Bytes.toBytes (count)); 
followsTable.put (p); 和 一 一 一 


如 你 所 看 到 的 ， 保 持 计 数 会 让 客户 并 代码 变 得 很 复杂 。 每 次 你 往 A 





























的 关注 用 户 列表 里 增加 一 个 用 户 ， 必 须 先 从 HBase 表 里 读 出 计数 ， 增 加 
下 一 个 用 户 ， 更 新 计数 器 。 这 个 过 程 看 起 来 有 点 像 你 可 能 用 过 的 关系 型 
数据 库 里 的 事务 。 

考虑 到 HBase 不 文 持 事 务 的 概念 ， 这 个 过 程 会 有 一 些 问题 。 首 先 ， 
它 不 是 线程 安全 的 。 如 果 用 户 使 用 两 个 不 同 的 浏览 器 或 设备 同时 关注 两 
个 不 同 的 用 户 会 出 现 什么 情况 呢 ? 这 种 情况 不 太 常 见 ， 但 是 男 一 种 类 似 
的 情况 很 可 能 会 发 生 ， 用 户 对 两 个 不 同 用 户 一 个 接 一 个 快速 点 击 关 注 按 
钮 :处理 请 求 的 两 个 线程 很 可 能 读 回 同一 个 计数 ， 一 个 可 能 窗 盖 为 一 个 
的 数据 。 此 外 ， 如 采 客 户 端 线程 在 执行 过 程 中 半途 死 了 怎么 办 呢 ? 你 不 
得 不 在 客户 端 代码 里 建立 回 滚 或 重复 写 操作 的 逻辑 。 最 好 避 开 这 样 的 复 
杂 问 题 。 

解决 这 个 问题 而 不 让 客户 端 变 得 复杂 的 唯一 办 法 是 去 挥 计数 器 。 再 
重复 一 过， 你 可 以 充分 利用 无 模式 数据 模型 的 特点 。 一 种 办 法 是 把 被 关 
注 用 户 名 字 放 进 列 限 定 符 。 记 住 ， HBase 把 一 切 数据 存储 为 字 节 数组 
Cbyte[]〉， 你 可 以 在 一 个 列 族 里 拥有 任意 数量 的 列 。 让 我 们 利用 这 个 
特性 来 改变 表 的 设计 ， 如 图 4-5 所 示 。 列 限定 符 将 使 用 被 关注 用 户 的 用 
户 名 ， 而 不 再 是 它们 在 关注 用 户 列表 里 的 位 置 (position) 。 现 在 单元 
值 可 以 是 任何 内 容 。 因 为 单元 不 能 是 空 的 ， 你 需要 存 点 儿 东 西 ， 所 以 输 
入 数字 1。 这 和 关系 型 系统 中 设计 表 有 些 不 同 。 
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图 4-5 现在 单元 使 用 被 关注 用 户 的 用 户 名 作为 列 限定 符 ， 使 用 任意 
字符 串 作为 单元 值 
提示 列 限 定 符 可 以 按 数 据 处 理 ， 就 像 值 。 这 和 关系 型 系统 不 同 ， 
关系 型 系统 的 列 名 是 固定 的 并 且 需 要 在 建 表 时 预先 定义 。 列 在 这 里 可 能 






有 些 用 词 不 当 。HBase 表 实质 上 是 多 维 映射 。 

HBase 模 式 的 简单 和 灵活 允许 你 做 出 这 种 优化 ， 不 需要 做 很 多 工作 
就 可 以 大 大 简化 客户 问 代 码 ， 或 者 使 性 能 获得 显著 提升 。 

使 用 这 种 新 的 表 设 计 ， 你 不 再 需要 计数 器 ， 客 户 端 代码 在 列 限定 符 
里 使 用 被 关注 用 户 ID。 这 个 值 总 是 唯一 的 ， 所 以 你 不 会 遇 到 已 有 信息 被 
窗 盖 的 问题 。 往 关注 用 户 列表 增加 用 户 的 代码 变 得 简单 多 了 : 





String newUserFollowed = "MTFanBoy2"; 

Put p = new Put (Bytes.toBytes ("TheFakeMT'" ) ) ; 

p.add (Bytes.toBytes ("follows"), 列 限定 符 中 使 用 新 用 户 
Bytes.toBytes (newUserFollowed), < 一 ID， 单 元 值 是 1 


Bytes.toBytes (1) ) ; 
followsTable .put (p); 


但 是 ， 读 取 关 注 用 户 列表 的 代码 会 有 点 儿 变 化 。 不 再 古 读 回 单元 











值 ， 现 在 需要 读 回 列 限定 符 。 采 用 这 种 变化 过 的 设计 ， 你 将 不 再 有 之 前 

可 以 得 到 的 计数 。 不 过 不 要 担心 ， 下 一 章 我 们 会 教 你 如 何 实现 这 一 点 。 

提示 HBase 没 有 跨行 事务 的 概念 。 请 避 开 在 客户 端 代码 里 需要 事务 
逻辑 的 设计 ， 因 为 这 会 让 你 不 得 不 维护 复杂 的 客户 端 。 
的 建 模 方 ， 





TwitBase 中 有 一 些 用 户 可 能 会 关注 很 多 人 。 这 意味 着 你 刚 设计 的 
HBase 表 会 有 变 长 的 行 。 这 本 和 映 不 是 问题 ， 但 是 它 影响 到 了 读 模式 。 考 
虑 一 下 这 个 问题 ，“TheFakeMT 关 注 TheRealMT 了 吗 ? ”如 何 使 用 这 张 表 
回答 这 个 问题 呢 ? 在 行 键 上 指定 TheFakeMT， 在 列 限 定 符 上 指定 
TheRealMT， 一 个 Get 请 求 就 可 以 搞定 。 对 于 HBase 来 襄 ， 这 个 操作 非常 
快 。 

HBase 访 问 时 间 复 杂 度 

“HBase 运 算 有 多 快 ? ”回答 这 个 问题 涉及 很 多 考量 因素 。 让 我 们 先 
定义 一 些 变量 : 

四 n= 表 中 KeyValue 条 目 数量 〈 包 括 Put 的 结果 和 Delete 留 下 的 墓 人 肆 
标记 ) ; 











四 bb = HFile 里 数据 块 (HFile block) 的 数量 ; 

国 e = 平均 一 个 HFile 里 KeyValue 条 目的 数量 (如 果 你 知道 行 的 大 
小 ， 可 以 计算 得 到 ) 

四 C= 每 行 里 列 的 平均 数量 。 

注意 ， 我 们 是 在 单个 列 族 的 语 境 中 讨论 这 一 点 的 。 

先 来 定义 针对 指定 行 键 查找 相关 HFile 数 据 块 需要 的 时 间 。 无 论 是 
你 在 单行 上 执行 get0 命 令 ， 还 是 为 一 次 扫描 查找 起 始 键 ， 都 会 有 这 个 动 
{Fs 

第 一 步 ， 客 户 端 寻找 正确 的 RegionServer 和 region。 花 费 3 次 固定 运 
算 找 到 正确 的 region 一 一 查找 ZK， 查 找 -ROOT-， 查 找 .META.。 这 是 一 
次 O(1) 运 算 山 。 

在 指定 region 上 ， 行 在 读 过 程 里 可 能 存在 于 两 个 地 方 : 如 条 还 没有 
刷 写 到 硬盘 就 位 于 MemStore， 如 果 已 经 刷 写 则 位 于 一 个 HFile 里 。 简 化 
起 见 ， 我 们 假定 只 有 一 个 HFile， 这 一 行 要 么 在 这 个 文件 里 ， 要 么 还 没 
有 有 刷 写 ， 在 MemStore 里 。 

让 我 们 用 e 合 理 代表 任何 指定 时 间 在 MemStore 里 的 条 目 数 量 。 如 果 
一 行 在 MemStore 里 ， 因 为 MemStore 是 使 用 跳 表 (skip list) 也 实现 的 ， 
所 以 查找 行 的 时 间 复 杂 度 是 O(log e)。 如 果 一 行 已 经 被 刷 写 到 硬盘 上 ， 
你 需要 找到 正确 的 HFile 数 据 块 。 数 据 块 索引 是 排 过 序 的 ， 所 以 碍 找 正 
确 的 数据 块 是 一 次 时 间 复 杂 度 为 O0dQog b) 的 运算 。 查 找 行 里 的 KeyValue 
对 象 是 在 数据 块 里 的 一 次 线性 扫 擂 操作 。 在 你 找到 第 一 个 KeyValue 对 象 
后 ， 随 后 得 找 剩 下 的 对 象 就 是 一 次 线性 扫描 。 假 设 行 里 的 单元 都 在 同一 
个 数据 块 里 ， 扫 描 的 时 间 复 杂 度 是 O (e/b)。 如 果 行 里 的 单元 不 在 同一 个 
数据 块 里 ， 这 种 扫描 需要 访问 多 个 连续 数据 块 里 的 数据 ， 所 以 这 时 的 运 
算 由 读 取 的 行 数 决定 ， 其 时 间 复 杂 度 是 O(c)。 也 束 是 说 ， 这 种 扫 摘 的 时 
间 复 杂 度 是 O(max(c,e/b))。 





























总 之 ， 碍 找 某 一 行 的 开销 如 下 所 示 : 
O(1) 用 于 查找 region 
+ O(log e) 用 来 在 MemStore 里 定位 KeyValue， 如 果 它 还 在 MemStore 


或 者 O(1) 用 于 查找 region 

+ O(log b) 用 来 在 HFile 里 查找 正确 的 数据 块 

+ O(max(c,e/b)) 用 来 查找 扫 摘 的 诀 定 性 部 分 ， 如 果 它 已 被 刷 写 到 硬 
到 

在 访问 Hbase 中 的 数据 时 ， 决 定性 因素 是 扫描 HFile 数 据 块 找到 相关 
KeyValue 对 象 所 花费 的 时 间 。 如 有 果 使 用 宽 行 ， 这 会 在 扫描 过 程 中 增加 处 
理 整 行 的 开销 。 所 有 这 些 分 析 ， 都 假设 你 知道 你 要 查找 的 行 的 行 键 。 

如 果 不 知道 行 键 ， 你 就 需要 扫描 整个 区 间 (有 可 能 是 整 张 表 ) 来 查 
找 你 关心 的 行 ， 这 个 时 间 复 杂 度 是 O(n)。 在 这 样 的 情况 下 ， 你 将 不 再 得 
益 于 把 扫描 限定 在 奉 干 HFile 数据 块 里 。 

我 们 这 里 没有 讨论 硬盘 寻 道 开销 。 如 果 需 要 从 HFile 里 读 取 的 数据 
己 经 被 加 载 进 数据 块 缓存 (block cache) ， 前 面 的 分 析 是 正确 的 。 如 果 
数据 还 需要 从 HDFS 读 到 数据 块 缓存 ， 从 硬盘 读 取 数 据 块 的 开销 会 增 大 
很 多 ， 从 学 术 上 讲 这 种 分 析 已 经 没有 意义 。 

因为 行 键 是 所 有 这 些 索 引 的 决定 性 因素 ， 所 以 结论 是 访问 宽 行 要 比 
访问 罕 行 开销 大 。 如 果 知 道行 键 ， 按 照 HBase 建 立 索 引 的 内 部 工作 原 
理 ， 你 会 从 中 得 到 很 大 好 处 。 

再 来 看 看 图 4-6 所 示 的 follows 表 的 男 一 种 模式 设计 。 到 现在 为 止 ， 
你 使 用 的 表 在 设计 上 都 是 一 种 宽 表 (wide table〉。 也 就 是 说 ， 一 行 包括 
很 多 列 。 同 样 的 信息 可 以 用 高 表 (tall table) 形式 存储 ， 这 是 一 种 新 模 
式 ， 如 图 4-6 所 示 。HFile 里 的 KeyValue 对 象 存储 列 族 名 字 。 使 用 短 的 
列 族 名 字 在 减少 人 硬盘 和 网 络 IO 方面 很 有 帮助 。 这 种 优化 方式 也 可 以 应 
用 到 行 键 、 列 限定 符 ， 甚 至 单元 ! 紧凑 存储 数据 意味 着 可 以 减少 IO 人 负 














载 。 
使 用 短 的 列 族 名 字 和 列 限 定 符 名 字 ， 可 以 减少 网 络 
上 传 回 客 户 端 的 数据 量 。 因 为 KeyValue 对 象 变 小 了 。 


行 键 : 
ov | 
LU 累 -~-T  | 
单元 值 : 1 

行 键 里 的 + 串联 了 两 个 值 。 你 可 以 使 用 

任何 喜欢 的 字符 ， 例 如 ，A-B 或 者 A,B。 
图 4-6 follows 表 的 新 模式 ， 在 行 键 里 包括 关注 人 和 被 关注 人 。 在 
HBase 表 里 ， 这 种 模式 将 转换 为 每 行 代表 一 个 “关注 -被 关注? 关系 。 这 是 

一 个 高 表 ， 不 是 之 前 的 宽 表 
保存 了 一 些 样 例 数据 的 表 如 图 4-7 所 示 。 

| EE | 
TheFake MT+TheReal MT 
TheFake MT+MTFanBoy 
TheFake MT+HRogers 
TheReal MT+Olivia 
图 4-7 按 高 表 而 不 是 宽 表 设 计 follows 表 。 (Amandeep 是 我 们 提 到 的 
粉丝 。) 把 用 户 名 放 进 列 限定 符 可 以 节省 为 了 得 到 用 户 名 到 用 户 表 查找 
的 时 间 。 当 在 本 表 碍 找 关 系 时 ， 束 可 以 轻松 地 列 出 名 字 或 者 ID。 其 负 
面 影响 是 ， 如 果 用 户 在 用 户 表 里 更 新 他 们 的 名 字 ， 你 不 得 不 在 本 表 的 所 

















































有 单元 里 更 新 用 户 名 字 。 这 是 一 种 典型 的 反 规 范 化 处 理 

表 的 这 种 新 设计 在 回答 第 二 个 问题 〈 即 “TheFakeMT 关 注 
TheRealMT 了 吗 ? ”) 时 ， 会 比 前 一 种 设计 快 。 你 可 以 基于 行 键 
TheFakeMT+TheRealMT 使 用 get0 得 到 一 行 ， 也 就 得 到 答案 了 。 列 族 里 
只 有 一 个 单元 ， 所 以 不 会 有 前 一 种 设计 里 的 多 个 KeyValue 对 象 。 在 
HBase 中 访问 驻 留 在 BlockCache 里 的 一 个 窜 行 是 最 快 的 读 操作 。 

回答 第 一 个 问题 “TheFakeMT 关注 了 谁 ?” 则 变 成 了 一 次 索引 查找 ， 
先 找到 以 TheFakeMT 为 前 级 的 第 一 个 数据 块 ， 然 后 基于 以 TheFakeMT 开 
头 的 行 键 对 随后 的 行 执行 一 次 扫描 。 从 IO 观点 看 ， 在 这 里 扫描 那些 行 与 
在 一 个 宽 行 上 执行 Get 命 令 然后 过 历 所 有 单元 相 比 ， 你 从 RegionServer 读 
取 了 相同 的 数据 量 。 还 记得 HFile 的 设计 吗 ? 两 种 表 设 计 的 物理 存储 本 
质 上 是 相同 的 ， 发 生变 化 的 是 物理 索引 ， 稍 后 我 们 会 讨论 。 


获取 关注 用 户 列表 的 代码 现在 是 这 个 样子 : 

创建 一 个 新 扫描 器 来 扫描 
TheFakeMT 的 所 有 关系 。 从 
TheFakeMT 开始 , 到 TheFakeMT+ 





Scan s = new Scan():; 
s.addFamily (Bytes.toBytes ("f")); 
s.setstartRow (Bytes.toBytes ("TheFakeMT")); 


六 | EEA = 
s.setStopRow (Bytes.toBytes ("TheFakeMT" + 1)); 1 停止。 查找 出 行 键 的 第 部 分 是 
ResultScanner results = followsTable.getScanner(s); | TheFakeMT 的 所 有 行 。 


List<String> followedList = new ArrayList<String>(); 
for(Result r : results) { 
String relation = Bytes.toSstring(r.getRow()); 


出 行 键 的 第 二 部 分 .假设 
String followedUser = relation.split("+") [1]; 取出 行 键 的 第 二 部 分 。 假 


followedList.add(followedUser); 以 + 为 分 隔 符 。 
} 
检查 两 个 用 户 关 注 关 系 是 否 存 在 的 代码 如 下 : 
Get g = new Get (Bytes .toBytes ("TheFakeMT" + "+" + "TheRealLMT" ) ; 4 


g.addFamily (Bytes.toBytes ("f")); 二 
Result r = followsTable.get (g); Tereser 


if(!r.isEmpty ()) TheRealMT 之 间 关 系 的 行 。 
CR 如 果 返 回 的 行 不 为 空 ， 
那么 这 种 关系 存在 。 

为 了 往 关 注 用 户 列表 增加 新 关注 ， 执 行 一 个 简单 的 put0， 如 下 所 


不 : 


Put p = new Put (Bytes.toBytes("TheFakeMT" + "+" + "TheRealLMT'" ) ; 
p.add (Bytes.toBytes("f"), Bytes.toBytes (newFollowedUser), Bytes.toBytes(1)), 
followsTable.put (p); 


提示 getOAPI 调 用 内 部 实现 为 一 次 扫 朱 单行 的 scan0 运 算 。 

高 表 并 不 总 是 表 设 计 的 最 好 选择 。 为 了 获得 高 表 的 性 能 好 处 ， 你 在 
某 些 操 作 上 牺牲 了 原子 性 原则 。 在 前 面 的 设计 中 ， 你 可 以 在 一 行 上 用 单 
个 Put 运 算 更 新 任何 用 户 的 关注 列表 。Put 运 算 在 行 级 是 原子 不 可 分 的 。 
在 第 二 种 设计 里 ， 你 放弃 了 这 样 做 的 能 力 。 本 例 中 ， 因 为 你 的 应 用 不 需 
要 原子 性 ， 所 以 是 可 行 的 。 但 是 其 他 使 用 场景 可 能 需要 这 种 原子 性 ， 那 
时 宽 表 更 合适 。 

注意 你 为 了 获得 高 表 带 来 的 性 能 好 处 而 放弃 了 原子 性 原则 。 

这 里 有 一 个 好 问题 ， 为 什么 在 列 限定 符 里 使 用 用 户 名 字 ? 不 是 必须 
这 样 做 的 。 先 来 想 想 TwitBase 的 用 途 以 及 用 户 在 读 取 这 张 表 时 可 能 会 做 
的 事情 。 要 么 他 们 在 请 求 整 个 关注 列表 ， 要 么 他 们 在 查找 某 人 的 简介 来 
看 看 他 们 是 人 否 在 关注 另 一 个 用 户 。 在 这 两 种 情况 下 ， 仅 仅 返 回 用 户 ID 都 
是 不 够 的 ， 更 重要 的 是 用 户 的 真实 名 字 。 此 时 这 个 信息 存储 在 users 表 
里 。 为 了 得 到 用 户 的 真实 名 字 ， 你 不 得 不 根据 返回 的 关注 表 的 每 一 行 再 
到 用 户 表 里 取出 用 户 名 字 。 要 知道 HBase 不 像 关 系 型 数据 库 系 统 那样 只 
需要 执行 一 次 联结 就 可 以 在 单条 SQL 碍 询 里 完成 所 有 这 些 ， 在 HBase 中 
你 不 得 不 显 式 地 让 你 的 客户 端 读 取 两 个 〈de-normalize) ， 不 同 的 表 来 
生成 你 需要 的 信息 。 简 单 起 见 ， 你 可 以 进行 反 规 范 化 处 理 印 把 用 户 名 
字 放 在 列 限 定 符 里 ， 或 者 就 这 个 例子 而 言 ， 还 可 以 放 在 表 的 单元 里 。 但 
是 这 样 做 并 不 是 没有 缺陷 。 这 种 方式 需要 维护 users 表 和 follows 表 的 一 致 
性 ， 这 有 点 儿 挑 战 。 是 否 选择 这 样 做 是 一 种 权衡 。 我 们 这 样 做 的 目的 是 
为 了 告诉 你 在 HBase 中 反 规 范 化 处 理 的 思路 和 背后 的 原因 。 如 果 你 预期 
你 的 用 户 会 频繁 修改 他 们 的 名 字 ， 反 规范 化 处 理 可 能 就 不 是 一 个 好 主 
意 。 我 们 假设 他 们 的 名 字 是 相当 稳定 的 ， 反 规范 化 代价 不 算 高 。 

提示 为 了 不 增加 你 的 客户 端 代 人 码 的 复杂 性 ， 尽 可 能 反 规范 化 处 





















































理 。 但 是 截止 今天 ，HBase 还 不 能 提供 使 反 规范 化 易于 处 理 的 特性 。 

你 还 可 以 采用 另外 一 种 优化 技巧 来 进行 简化 。 在 twits 表 里 ， 你 曾经 
使 用 MD5 值 作为 行 键 。 这 样 可 以 得 到 定 长 行 键 。 使 用 散 列 键 还 有 其 他 的 
好 处 。 你 可 以 在 follows 表 里 使 用 MD5(userid1)MD5(userid2) 并 去 掉 + 分 隔 
符 做 行 键 ， 取 代 userid1+userid2。 这 会 带 来 两 个 好 处 。 第 一 个 好 处 是 ， 
行 键 都 是 统一 长 度 的 ， 可 以 帮助 你 更 好 地 预测 读 写 性 能 。 但 是 如 果 你 已 
经 限定 了 userid 长 度 ， 这 可 能 不 算是 一 个 重大 收获 。 第 二 个 好 处 是 ， 不 
再 需要 分 陋 符 了 ， 更 容易 为 扫 摘 操作 计算 起 始 和 停止 键 。 

使 用 散 列 键 也 会 有 助 于 数据 更 均匀 地 分 布 在 region 上。 在 这 个 一 直 
使 用 的 例子 里 ， 数 据 的 分 布 不 是 问题 。 但 是 ， 如 果 你 的 访问 模型 天 生 是 
倾斜 的 ， 这 惑 会 成 为 一 个 问题 ， 你 会 遇 到 负载 没有 分 摊 在 整个 集群 上 而 
是 集中 在 几 个 region 上 的 热点 〈hot-spotting) 。 

HBase 语 境 中 的 热点 指 的 是 负载 极度 集中 在 一 小 部 分 region 上 。 
为 负载 没有 分 散在 整个 集群 上 ， 这 是 不 合理 的 。 服 务 这 些 region 的 几 台 
机 器 承担 了 绝 大 部 分 工作 ， 将 成 为 整体 性 能 的 瓶颈 。 

例如 ， 如 有 果 你 插入 时 间 序 列 数据 ， 行 键 开 头 是 时 间 惟 ， 因 为 任何 写 
入 的 时 间 惟 总 是 大 于 已 经 写 入 的 时 间 惟 ， 数 据 总 是 追加 在 表 的 尾部 。 
此 ， 表 的 最 后 的 region 就 会 成 为 热点 。 

如 有 果 对 时 间 惟 做 MD5 计 算 并 用 做 行 键 ， 你 会 在 所 有 region 上 实现 一 
个 均匀 的 分 布 ， 但 是 这 样 你 会 失去 数据 的 顺序 。 换 句 话说 ， 你 不 能 再 扫 
描 一 个 小 的 时 间 范 围 。 你 要 么 恋 取 指定 时 间 戳 ， 要 么 扫 摘 整个 表 。 但 
是 ， 你 的 客户 端 可 以 在 提交 请 求 前 先 对 时 间 惟 做 MD5 运 算 ， 所 以 并 不 影 
啊 对 指定 时 间 戳 记录 的 访问 。 

散 列 和 MD5 负 

散 列 函数 是 把 变 长 的 巨大 数值 映射 到 定 长 的 小 数值 上 的 一 种 函数 。 






































有 多 种 散 列 算法 ，MD5 是 其 中 之 一 。MD5 对 任何 数据 进行 散 列 运算 生 
成 一 个 128 位 〈16 字 节 ) 的 散 列 值 。 这 是 一 种 流行 的 散 列 函 数 ， 可 以 使 
用 在 各 种 地 方 ， 你 可 能 已 经 用 过 了 。 

一 般 来 说 ， 在 信息 检索 领域 特别 是 HBase 中 散 列 是 一 种 重要 的 技 
术 。 详 细 介 绍 这 些 算法 超出 了 本 书 的 范围 。 如 果 想 深入 了 解散 列 和 MD5 
算法 ， 我 们 建议 你 查找 在 线 资源 。 

如 果 你 在 行 键 里 使 用 MD5，follows 表 如 图 4-8 所 示 。 在 行 键 里 存储 
用 户 ID 的 MD5 值 ， 所 以 当 读 回 时 你 不 会 直接 得 到 用 户 ID。 当 你 想 获 取 
Mark Twain 关注 用 户 列表 时 ， 你 会 得 到 用 户 ID 的 MD5 值 而 不 是 用 户 
ID。 但 是 因为 你 也 想 存 储 用 户 的 名 字 ， 这 个 信息 可 以 被 存储 在 列 限定 符 
里 。 如 果 还 要 得 到 用 户 ID， 你 可 以 考虑 把 用 户 ID 存 入 列 限 定 符 ， 而 把 用 
户 名 字 存 入 单元 值 。 

使 用 用 户 ID 的 MD5 值 可 以 把 变 长 的 
用 户 ID 变 成 定 长 。 你 不 再 需要 逻辑 


清晰 的 用 户 ID 的 拼接 。 
CO: followed userid 


行 键 : 
md5(follower)md5(followed) | 
单元 值 : 关注 用 户 名 


图 4-8 使 用 MD5 作为 行 键 的 一 部 分 可 以 得 到 固定 长 度 和 更 好 的 分 布 
数据 存 入 后 的 表 如 图 4-9 所 示 。 
























| 
MD5(TheFake MT) MDS(TheRealMT) 
MDS(TheFakeMT) MDS(MTFanBoy) MTFanBoy:Amandeep Khurana 
MD5(TheFakeMT) MD5(Olivia) Olivia:Olivia Clemens 
MDS5(TheFakeMT) MD5(HRogers) 
MDS(TheReal MT) MDS(Olivia) Olivia:Olivia Clemens 
图 4-9 在 行 键 中 使 用 MD5 可 以 去 掉 之 前 需要 的 + 分 隔 符 。 现 在 行 键 
由 两 个 定 长 部 分 组 成 ， 每 个 用 户 ID 对 应 16 个 字 节 


4.1.4 未 类 人 国 


此 时 ， 你 可 能 想 知 道 在 HBase 中 应 该 使 用 什么 样 的 索引 。 我 们 在 前 
面 两 章 已 经 讨论 过 ， 但 是 当 考 虑 表 设 计时 ， 这 一 点 变 得 更 加 重要 了 。 高 
表 和 宽 表 的 讨论 根本 上 是 一 场 需要 对 什么 和 不 对 什么 建立 索引 的 讨论 。 
把 更 多 信息 放 入 行 键 可 以 赋予 你 在 固定 时 间 内 回答 某 些 问题 的 能 力 。 还 
记得 第 2 章 的 读 过 程 和 数据 块 索引 吗 ? 这 里 就 是 这 样 做 的 ， 高 表 使 你 快 
速 得 到 正确 的 行 。 

HBase 表 里 只 有 和 键 可 以 建立 索引 (KeyValue 对 象 的 Key 部 分 ， 包 括 
行 键 、 列 限定 符 和 时 间 惟 ) 。 可 以 把 它 看 做 是 关系 型 数据 库 系 统 的 主 
键 ， 但 是 你 不 能 改变 构成 主键 的 列 ， 这 里 的 键 由 3 个 数据 元 素 复 合 而 成 
《 行 键 、 列 限定 符 和 时 间 惟 ) 。 访 问 一 个 特定 行 的 唯一 办 法 是 通过 行 
键 。 在 列 限定 符 和 时 间 惟 上 建立 索引 ， 可 以 让 你 在 一 行 上 不 用 扫描 前 面 
所 有 的 列 而 直接 跳 到 正确 的 列 。 你 取 回 的 KeyValue 对 象 基本 上 是 来 自 于 
HFile 的 一 行 ， 如 图 4-10 所 示 。 

从 表 中 获取 数据 有 两 种 方式 ， 即 Get 和 Scan。 如 果 你 需要 一 行 ， 可 
以 使 用 Get 调 用 ， 这 种 情况 下 必须 提供 行 键 。 如 果 你 想 执行 一 次 扫描 
《Scan) ， 如 果 你 知道 起 始 和 停止 键 ， 你 可 以 选择 使 用 它们 来 限制 扫描 

























器 对 象 扫描 的 行 数 。 

当 执 行 Get 命 令 时 ， 你 可 以 直接 跳 到 包含 被 查找 行 的 数据 块 。 从 那 
里 ， 扫 描 块 来 找 出 构成 该 行 的 相关 KeyValue 对 象 。 在 Get 对 象 里 ， 
如 果 你 愿意 ， 也 可 以 指定 列 族 和 列 限 定 符 。 指 定 列 族 ， 可 以 限制 客户 端 
| HFile; 指定 列 限 定 符 不 会 限制 从 硬盘 读 出 的 HFile， 
但 是 可 以 限制 网 络 上 传 回 的 东西 。 如 果 在 给 定 的 region 上 一 个 列 族 存 在 
多 个 HFile， 要 得 找 在 Get 调用 里 指定 的 行 的 内 容 ， 不 管 有 多 少 个 HFile 
包含 与 请 求 有 关 的 数据 ， 都 要 访问 所 有 的 HEFile。 但 是 在 Get 里 尽 可 能 明 
确 得 找 内 容 是 有 帮助 的 ， 因 为 不 必 在 网 络 上 传 回 客户 端 不 需要 的 数据 。 
唯一 的 开销 是 RegionServer 上 可 能 的 人 硬盘 IO 。 如 果 在 Get 对 象 里 指定 时 
间 戳 ， 可 以 避免 读 取 早 于 时 间 戳 的 HFile。 图 4-11 在 一 个 简单 的 表 里 解 
释 了 这 一 点 

我 们 和 r5 行 执行 Get0 意 味 着 什么 。 这 张 表 的 实际 物理 存储 


CF] CF2 CF1 的 HFile CF2 的 HFile 

















rl:CFl:cl:tl:vl 
r2:CFl:clt:v2 天 
r2:CF1:c3:t3:v6 有 
r3:CFl:c2:tl:v3 ,3:CF2:cS 4:v6 
r4:CF1:c2:tl:v4 i 8 
irS5:CFl:cT:t2:v1 | 4 


1 r5:CF1: :C3:03; v51 


r$5:CF1:c1:t2:v] 
r$:CF1:c3:t3:v5 
rS:cf2:c7:t3:v8 





KeyValue 对 象 的 结构 
图 4-10 一 张 HBase 表 的 逻辑 模型 到 物理 模型 的 转换 。HFile 里 每 条 
记录 代表 一 个 KeyValue 对 象 。 该 图 显示 了 在 表 上 执行 get(r5) 读 取 15 行 的 


限制 硬盘 10 


限制 网 络 IO 
图 4-11 根据 指定 的 键 的 某 个 部 分 ， 你 可 以 限制 读 取 硬 盘 的 数据 量 或 
者 网 络 传输 的 数据 量 。 指 定 行 键 则 只 返回 你 需要 的 行 。 但 是 服务 器 返回 
整 行 给 客户 端 。 指 定 列 族 让 你 进一步 限制 读 取 行 的 什么 部 分 ， 因 此 如 果 
行 横 跨 多 个 列 族 可 以 只 读 取 HFile 的 一 个 子 集 。 进 一 步 指 定 列 限定 符 和 
时 间 戳 ， 可 以 让 你 减少 返回 客户 问 的 列 数 ， 因 此 节省 了 网 络 IO 
你 可 以 利用 这 一 点 来 设计 表 。 把 数据 放 入 单元 值 和 把 它 放 入 列 限 定 
符 或 行 键 将 占用 相同 的 存储 空间 。 但 是 把 数据 从 单元 移 到 行 键 你 可 能 得 
到 更 好 的 性 能 。 考 虑 到 行 键 是 建立 索引 的 唯一 办 法 ， 把 更 多 数据 放 入 行 
键 的 负面 因素 是 数据 块 索引 变 得 更 大 了 。 
目前 为 止 ， 你 已 经 学 习 了 相当 多 东西 ， 本 章 其 余部 分 将 继续 在 此 基 
础 上 继续 。 在 继续 之 前 让 我 们 快速 做 一 个 小 结 。 
四 HBase 表 很 灵活 ， 可 以 用 字符 数组 形式 存储 任何 东西 。 
是 在 同一 列 族 里 存储 相似 访问 模式 的 所 有 东西 。 
四 索引 建立 在 KeyValue 对 象 的 Key 部 分 上 ，Key 由 行 键 、 列 限定 
符 和 时 间 戳 按 次 序 组 成 。 
上 局 表 可 能 文 持 你 把 运算 复杂 度 降 到 O(1)， 但 是 要 在 原子 性 上 付出 
人 
加 设计 HBase 模式 时 进行 反 规 范 化 处 理 是 一 种 可 行 的 办 法 。 




















晶 想 想 如 何 能 够 在 单个 API 调用 里 而 不 是 多 个 API 调用 里 完成 访问 
模式 。HBase 不 文 持 跨 行事 务 ， 要 避免 在 客户 端 代 但 里 维护 这 种 复杂 的 
逻辑 。 

加 散 列 文 持 定 长 键 和 更 好 的 数据 分 布 ， 但 是 失去 了 排序 的 好 处 。 

加 列 限 定 符 可 以 用 来 存储 数据 ， 就 像 单元 一 样 。 

得 因为 可 以 把 数据 放 入 列 限定 符 ， 所 以 它 的 长 度 影响 存储 空间 。 当 
访问 数据 时 ， 它 也 影响 了 硬盘 和 网 络 IO 的 开销 。 所 以 尽量 简练 。 

得 列 族 名 字 的 长 度 影响 了 通过 网 络 传 回 客户 端的 数据 大 小 在 
KeyValue 对 象 里 ) 。 所 以 尽量 简练 。 

我 们 经 历 了 一 个 示例 表 设 计 流 程 ， 学 了 一 大 扒 概 念 ， 让 我 们 固化 一 
些 核 心思 路 ， 看 看 设计 HBase 表 时 可 以 如 何 运用 它们 。 











4.2 反 规 范 化 是 HBase 亲本 证 


设计 HBase 表 的 一 个 关键 概念 是 反 规 范 化 。 我 们 在 本 节 深 入 讨论 这 
一 概念 。 到 现在 为 止 ， 你 已 经 看 到 我 们 维护 了 单个 用 户 的 关注 用 户 列 
表 。 当 TwitBase 用 户 登 录 账 尸 ， 和 希望 看 到 他 们 所 关注 的 人 的 推 帖 ， 你 的 
应 用 会 提取 关注 用 户 列表 和 他 们 的 推 帖 ， 返 回 这 些 信息 。 随 着 系统 用 户 
数量 增长 ， 这 个 过 程 会 很 花 时 间 。 此 外 ， 如 果 一 个 用 户 被 许多 人 关注 ， 
每 次 粉丝 登录 ， 他 的 推 帖 都 会 被 访问 。 托 管 这 个 受 欢迎 的 人 的 推 帖 的 
region 将 会 不 断 回应 请 求 ， 因 此 我 们 制造 了 一 个 读 热点 。 解 决 这 个 问题 
的 办 法 是 ， 在 系统 里 为 每 个 用 户 维 护 一 个 推 帖 流 ， 一 旦 他 们 所 关注 的 用 
户 写 了 推 帖 ， 就 把 这 个 推 帖 加 到 目 己 的 推 帖 流 里 。 

想 想 看 ， 显 示 一 个 用 户 推 帖 流 的 流程 被 改变 了 。 之 前 ， 你 需要 读 取 
他 们 的 关注 用 户 列表 ， 然 后 把 列表 中 每 个 人 的 最 新 推 帖 集合 起 来 形成 自 
己 的 推 帖 流 。 采 用 这 个 新 思路 ， 你 会 有 一 个 持续 存在 的 来 自 于 该 用 户 推 
帖 流 的 推 帖 列表 。 本 质 上 你 对 你 的 表 进 行 了 反 规 范 化 处 理 。 











规范 化 和 反 规 范 化 

规范 化 是 关系 型 数据 库 世 界 的 一 种 技术 ， 其 中 每 种 重复 信息 都 会 放 
进 一 个 自己 的 表 。 这 有 两 个 好 处 : 当 发 生 更 新 或 删除 时 ， 不 用 担心 更 新 
指定 数据 所 有 副本 的 复杂 性 ;通过 保存 单一 副本 而 不 是 多 个 副本 ， 减 少 
了 占用 的 存储 空间 。 需 要 查询 时 ， 在 SQL 语句 里 使 用 JOIN 子 句 重新 联结 
这 个 数据 。 

反 规范 化 是 一 个 相反 概念 。 数 据 是 重复 的 ， 存 在 多 个 地 方 。 因 为 你 
不 再 需要 开销 很 大 的 JOIN 子 句 ， 这 使 得 查询 数据 变 得 更 容易 、 更 快 。 

从 性 能 观点 看 ， 规 范 化 为 写 做 优化 ， 而 反 规 范 化 为 读 做 优化 。 























规范 化 理想 世界 


i 


糟糕 的 设计 反 规 范 化 





读 性 能 

规范 化 为 写 操 作 时 表 进 行 优化 ， 在 读 取 时 付出 联结 数据 的 开销 。 反 
规范 化 为 读 操作 对 表 进 行 优 化 ， 但 是 在 写 入 时 付出 多 个 副本 的 开销 

本 例 中 ， 可 以 通过 为 推 帖 流 给 每 个 用 户 专 门 建立 一 张 表 的 方式 进行 
反 规 范 化 处 理 。 这 样 做 ， 可 以 消除 读 的 扩展 能 力 问 题 ， 通 过 为 所 有 读 帖 
人 《关注 受 欢迎 的 人 的 用 户 ) 建立 多 个 数据 (本 例 中 是 受 欢迎 的 人 的 推 
帖 ) 副本 来 解决 这 个 问题 。 

截止 目前 ， 有 了 users 表 、twits 表 和 follows 表 。 当 一 个 用 户 登 录 进 
来 ， 你 使 用 下 面 流程 建立 他 的 推 帖 流 。 











(1) 获取 这 个 用 户 的 关注 用 户 列 表 。 

(2) 获取 每 个 被 关注 用 户 的 推 帖 。 

(3) 集合 这 些 推 帖 ， 按 时 间 戳 排序， 最 新 的 在 最 前 面 。 

你 可 以 选择 许多 种 方式 来 进行 反 规 范 化 处 理 。 你 可 以 给 users 表 增 
加 一 个 列 族 来 为 每 个 用 户 维护 一 个 推 帖 流 。 或 者 你 为 推 帖 流 男 外 建立 一 
张 表 。 把 推 帖 流放 进 users 表 的 做 法 不 大 理想 ， 因 为 那 张 表 的 行 键 设计 
不 是 为 这 个 目的 而 优化 的 。 先 读 下 去 ， 很 快 你 就 会 知道 原因 。 

推 帖 流 表 的 访问 模式 由 两 种 情况 组 成 。 

加 当 给 定 用 户 登 录 时 读 取 推 帖 流 ， 按 建立 时 间 稚 倒序 (最 新 最 靠 
前 ) 显示 给 他 。 

加 当 他 关注 的 任何 用 户 写 了 一 条 推 帖 时 ， 把 这 条 推 帖 加 a 到 自己 的 推 
帖 列表 里 。 

需要 考虑 的 另 一 件 事情 是 推 帖 流 的 保留 策略 。 例 如 ， 你 可 能 想 维护 
一 个 最 近 72 小 时 的 推 帖 流 。 我 们 后 面 会 讨论 生存 时 间 (Time To Live， 
TIL) 概念 ， 这 是 列 族 高 级 配置 的 一 个 部 分 。 

运用 我 们 已 经 学 到 的 概念 ， 你 会 发现 把 用 户 ID 和 倒序 时 间 戳 放 入 
行 键 比较 合理 。 这 样 可 以 轻松 地 在 表 里 扫描 一 组 行 来 获取 构成 推 帖 流 的 
推 帖 。 你 还 需要 存储 创建 每 条 推 帖 的 人 的 用 户 ID， 这 个 信息 可 以 放 进 列 
限定 符 。 这 张 表 如 图 4-12 所 示 。 

当 某 人 创建 一 条 推 帖 时 ， 所 有 粉丝 应 该 分 别 在 自己 的 流 里 得 到 那 条 
推 帖 。 这 可 以 使 用 我 们 下 一 章 讨论 的 协 处 理 吉 来 实现 。 这 里 我 们 可 以 讨 
论 一 下 流程 是 什么 。 当 一 个 用 户 创 建 一 条 推 帖 时 ， 先 从 关系 表 里 取出 他 
的 粉丝 列表 ， 然 后 把 这 条 推 帖 加 到 每 个 粉丝 的 流 里 。 为 了 完成 这 一 点 ， 
你 首先 需要 人 查找 给 定 用 户 的 粉丝 列表 ， 这 和 你 的 天 系 表 人 至今 所 解决 的 正 
好 相反 。 换 句 话 说， 你 想 有 效 地 回答 问题 :“ 谁 关注 了 我 ? ”。 
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倒序 时 间 戳 =Long.MAX_ VALUE- 时 间 稚 








mds(TheFakeMT) + reverse ts TheReal MT:First twit 
mds(TheFakeMT) + reverse ts Olivia: Second twit 
md5(TheFake MT) + reverse ts HRogers:Twit foo 


mds(TheFakeMT) + reverse ts TheReal MT: Twit bar 


md$(TheReal MT) + reverse ts Olivia:Second twit 


md5(TheReal MT) + reverse ts HRogers: Twit foo 










图 4-12 为 每 个 用 户 存储 推 帖 流 的 表 。 倒 序 时 间 戳 可 以 把 最 新 的 推 由 
排 在 最 前 面 。 这 样 可 以 执行 高 效 扫描 ， 得 到 最 新 n 条 推 帖 。 在 用 户 的 推 
帖 流 里 获取 了 最 新 推 帖 需要 扫描 表 

在 当前 表 的 设计 下 ， 通 过 扫描 整 张 表 并 且 找 出 行 键 的 后 半 部 分 是 你 








感 兴趣 的 用 户 的 所 有 行 ， 可 以 回答 这 个 问题 。 再 说 一 届 ， 这 个 过 程 是 低 
效 的 。 在 关系 型 数据 库 系统 里 ， 通 过 在 第 二 部 分 上 增加 一 个 索引 和 对 

SQL 碍 询 略 做 一 点 儿 改 变 就 可 以 解决 。 也 请 记 住 ， 你 需要 处 理 的 数据 量 
要 小 得 多 。 而 在 这 里 你 努力 完成 的 是 在 海量 数据 上 执行 这 种 运算 。 














HBase 模 式 很 灵活 ， 现 在 将 使 用 这 种 灵活 性 来 避免 每 次 需要 某 个 用 
户 的 粉丝 列表 时 执行 前 面 那 种 扫描 。 我 们 希望 把 设计 HBase 表 时 涉及 的 
各 种 思路 介绍 给 你 。 当 前 你 的 关系 表 使 用 如 下 行 键 : 

md5 (user) + md5 (followed user) 

你 可 以 往 这 个 行 键 里 增加 关系 信息 ， 如 下 所 示 : 

md5 (user) + relationship type + md5 (user) 

这 可 以 让 你 在 同一 张 表 里 存储 两 种 关系 : 关注 〈following) 和 被 关 
注 (followed by) 。 为 了 回答 之 前 的 问题 ， 现 在 涉及 从 行 键 里 检查 关系 
信息 。 当 你 访问 某 个 用 户 的 全 部 粉丝 或 者 某 个 用 户 的 全 部 关注 时 ， 你 将 
在 一 组 行 上 执行 扫描 。 当 为 第 一 种 情况 得 找 用 户 列表 时 ， 你 希望 避 开 读 
取 男 一 种 情况 的 信息 。 换 句 话说 ， 当 查找 一 个 用 户 的 粉丝 列表 时 ， 你 不 








想 把 数据 集 里 的 关注 列表 返回 给 客户 端 应 用 。 你 可 以 通过 为 扫描 设 定 起 
始 和 停止 键 做 到 这 一 点 。 

让 我 们 看 看 男 一 种 可 能 的 键 结 构 : 把 关系 信息 放 在 键 的 第 一 部 分 。 
新 键 就 像 这 样 : 

relationship type + md5 (user) + md5 (user) 

想 想 看 现在 数据 会 如 何在 RegionServer 上 分 布 。 特 定 关 系 类 型 的 所 
有 数据 将 会 放 在 一 起 。 如 果 你 得 询 粉 丝 列表 的 频 度 高 于 关注 列表 ， 负 载 
就 不 能 很 好 在 各 个 region 上 分 布 。 这 就 是 这 种 行 键 设计 的 负面 影响 ， 以 
及 在 同一 张 表 里 存储 混杂 数据 会 面临 的 挑战 。 

提示 尽 可 能 分 离 不 同 访问 模式 。 

本 例 中 改善 负载 分 布 的 办 法 是 为 你 想 存 储 的 两 种 关系 分 别 建 表 。 你 
可 以 新 建 一 个 叫做 followedBy 的 表 ， 与 follows 表 有 同样 的 设计 。 这 样 
做 ， 你 可 以 避免 在 键 里 放 入 关系 类 型 信息 。 这 有 助 于 在 集群 上 更 好 地 分 
布 负 载 。 

我 们 将 面临 的 一 个 挑战 是 如 何 保持 两 张 表 里 的 关系 条 目 一 致 。 妆 
Mark Twain 决定 关注 他 的 粉丝 时 ， 需 要 往 两 个 表 里 分 别 增加 条 目 : 一 
个 在 follows 表 ， 男 一 个 在 followedBy 表 。 考 虑 到 HBase 不 支持 跨 表 或 
跨行 事务 ， 写 入 这 些 条 目的 客户 端 应 用 必须 保证 两 行 都 被 写 入 。 但 是 故 
障 总 会 发 生 ， 如 有 果 需 要 在 客 己 端 实现 事务 馆 辑 ， 客 户 端 应 用 会 变 得 很 复 
杂 。 理 想 情 况 下 ， 底 层 数据 库 系统 应 该 玫 你 处 理 这 种 事情 ， 但 是 数据 规 
模 不 同 设计 不 同 ， 在 分 布 式 系统 领域 这 个 问题 至 今 还 没有 得 到 解决 。 


4.4 行 键 设计 策略 


到 现在 为 止 ， 你 在 设计 流程 中 准备 好 了 两 张 表 来 存储 关系 信息 。 可 
以 看 到 一 种 现象 ， 整 个 过 程 中 行 键 一 直 在 调整 。 

提示 在 设计 HBase 表 时 ， 行 键 是 唯一 最 重要 的 事情 。 应 该 基于 预期 
的 访问 模式 来 为 行 键 建 模 。 


























行 键 决定 了 访问 HBase 表 时 可 以 得 到 的 性 能 。 这 个 结论 根植 于 两 个 
事实 : region 基 于 行 键 为 一 个 区 间 的 行 提供 服务 ， 并 且 负 责 区 间 内 每 一 
行 ，HFile 在 硬盘 上 存储 有 序 的 行 。 这 两 个 因素 是 相互 关联 的 。 当 region 
刷 写 留 在 内 存 里 的 行 时 生成 了 HFile， 这 些 行 已 经 排 过 序 ， 也 会 有 序 地 
刷 写 到 硬盘 上 。HBase 表 的 有 序 特性 和 底层 存储 格式 可 以 让 你 根据 如 何 
设计 行 键 以 及 把 什么 放 入 列 限 定 符 来 推理 其 性 能 表现 。 为 了 恢复 对 
HFile 的 记忆 ， 请 看 图 4-13， 这 是 第 2 章 学 习 过 的 HFile。 














"TheRealMT", "email", 1329088321289, "samuel@clemens .org" 
"TheRealMT", " "name", 1329088321289, "Mark Twain" 


"TheRealMT", " "password", 1329088818321, "abcl123" 


"TheRealMT", " "password", 1329088321289, "Langhorne" 





users 表 里 的 info 列 族 对 应 的 HFile 
图 4-13 HFile 的 概念 性 结构 
关系 型 数据 库 可 以 在 多 个 列 上 建立 索引 ， 但 HBase 只 能 在 键 上 建立 
索引 ， 访 问 数 据 的 唯一 办 法 是 使 用 行 键 。 如 果 不 知 道 想 访问 的 数据 的 行 
键 ， 就 必须 扫描 相当 多 的 行 ， 就 算 不 是 整 张 表 。 设 计 行 键 有 各 种 技巧 ， 
而 且 可 以 针对 不 同 访问 模式 进行 优化 ， 我 们 接 下 来 研究 一 下 。 


4.5 IO 考虑 


HBase 表 的 有 序 特性 对 你 的 应 用 系统 来 说 是 个 重要 的 特性 。 例 如 ， 
上 一 节 当 我 们 查找 推 帖 流 表 时 ， 它 的 有 序 特性 使 你 能 够 快速 扫描 一 小 组 
行 而 得 到 最 新 推 帖 。 但 是 当 你 往 HBase 表 里 写 入 一 堆 时 间 序列 数据 时 同 
样 的 有 序 特性 会 起 负面 作用 《记得 热点 问题 吧 ? ) 。 如 果 使 用 时 间 戳 做 
行 键 ， 你 总 是 写 到 负责 这 个 时 间 改 所 在 范围 的 一 个 region 上 。 实 际 上 ， 

你 总 是 在 写 入 表 的 尾部 ， 因 为 时 间 戳 天然 是 单调 增长 的 。 这 不 仅 使 整个 
集群 受 限于 单个 region 能 够 处 理 的 吞吐 量 ， 而 且 让 你 承担 单个 机 器 过 载 











而 同时 集群 里 其 他 机 器 闲置 的 风险 。 下 面谈 到 的 技巧 是 针对 你 关心 的 访 
问 模式 对 设计 行 键 进行 优化 。 
4.5.1 为 写 优化 


当 往 HBase 表 写 入 大 量 数据 时 ， 你 希望 在 RegionServer 上 分 散 负 载 
来 进行 优化 。 这 并 不 难 ， 但 是 你 可 能 不 得 不 在 读 模 式 优 化 上 付出 代价 。 
比如 ， 时 间 序 列 数据 的 例子 ， 如 果 你 的 数据 直接 使 用 时 间 戳 做 行 键 ， 在 
写 入 时 在 单个 region 上 会 遇 到 热点 问题 。 

许多 使 用 场景 下 ， 并 不 需要 基于 单个 时 间 惟 访问 数据 。 你 可 能 要 运 
行 一 个 作业 在 一 个 时 间 区 间 上 做 聚合 计算 ， 如 果 对 时 间 延 迟 不 敏感 ， 可 
以 考虑 跨 多 个 region 做 并 行 扫描 来 完成 任务 。 但 问题 是 ， 应 该 如 何 把 数 
据 分 散在 多 个 region 上 呢 ? 有 几 个 选项 可 以 考虑 ， 答 案 取 决 于 你 想 让 行 
键 包 舍 什 么 信息 。 

1. 散 列 

如 采 你 愿意 在 行 键 里 放弃 时 间 戳 信息 《每 次 你 做 什么 事情 都 要 扫描 
全 表 ， 或 者 每 次 要 读数 据 时 你 都 知道 精确 的 键 ， 这 些 情况 下 也 是 可 行 
的 ) ， 使 用 原始 数据 的 散 列 值 作为 行 键 是 一 种 可 能 的 解决 方案 : 

hash("TheRealMT") -> random byte[] 

每 次 当 你 需要 访问 以 这 个 散 列 值 为 键 的 行 时 ， 需 要 精确 知 
道 "TheRealMT"。 

时 间 序 列 数据 一 般 不 这 样 处 理 。 当 你 访问 数据 时 ， 可 能 记 住 了 一 个 
时 间 范 围 ， 但 不 大 可 能 知道 精确 的 时 间 惟 。 但 是 有 些 情况 下 ， 像 之 前 创 
建 的 twits 表 或 关系 表 ， 你 知道 用 户 ID， 所 以 能 够 计算 散 列 值 从 而 找到 
正确 的 行 。 为 了 得 到 一 种 跨 所 有 region 的 、 优 秀 的 分 布 策略 ， 你 可 以 使 
用 MD5、SHA-1 或 者 其 他 提供 随机 分 布 的 散 列 函数 。 

倍 撞 

散 列 算法 有 一 个 非 零 伴 撞 概率 。 有 些 算法 比 其 他 算法 高 。 当 用 于 大 





























型 数据 集 时 需要 小 心 ， 要 尽量 使 用 低 碰撞 概率 的 散 列 算法 。 例 如 ， 在 这 
方面 SHA-1 优 于 MD5， 某 些 情况 下 SHA-1 可 能 是 个 更 好 的 选择 ， 即 使 性 
能 上 有 些许 损失 。 

使 用 散 列 函数 的 方式 也 很 重要 。 本 章 之 前 建立 的 关系 表 对 用 户 ID 做 
MD5 散 列 运 算 ， 当 碍 找 特定 用 户 的 信息 时 你 可 以 轻松 地 反 算 回来 。 但 是 
注意 ， 你 连接 的 是 两 个 用 户 ID 的 散 列 值 (MD5(user1) + MD5(user2))， 而 
不 是 连接 两 个 用 户 ID 后 再 做 散 列 运算 (MD5(userl + user2))。 这 是 因为 
当 需 要 扫描 一 个 指定 用 户 的 关系 时 ， 你 需要 传递 起 始 和 停止 键 给 scanner 
对 象 。 如 果 行 键 是 连接 两 个 用 户 ID 后 的 散 列 值 ， 上 面 的 要 求 就 做 不 到 
了 ， 因 为 在 这 种 行 键 里 失去 了 指定 用 户 ID 的 信息 。 

2. Salting 

当 你 思考 行 键 的 构成 时 ，salting 是 男 一 种 技巧 。 让 我 们 考虑 之 前 的 
时 间 序 列 数据 例子 。 假 设 你 在 读 取 时 知道 时 间 范 围 ， 但 不 想 做 全 表 扫 
描 。 对 时 间 惟 做 散 列 运算 然后 把 散 列 值 作 为 行 键 的 做 法 需要 做 全 表 扫 
描 ， 这 是 很 低 效 的 ， 尤 其 是 在 你 有 办 法 限制 扫描 范围 的 时 候 。 使 用 散 列 
值 作 为 行 键 在 这 里 不 是 办 法 ， 但 是 你 可 以 在 时 间 戳 前 面 加 上 一 个 随机 数 
前 绥 。 

例如 ， 你 可 以 先 计 算 时 间 戳 的 散 列 码 然 后 用 RegionServer 的 数量 取 
模 来 生成 随机 salt 数 : 


int salt = new Integer (new Long (timestamp) .hashCode()) .ShortValue () % <number 
of region servers> 


取得 salt 数 后 ， 加 到 时 间 惟 的 前 面 生 成 行 键 : 

byte [] rowkey = Bytes.add(Bytes .toBytes (salt) \ 

+ Bytes.toBytes("|") + Bytes.toBytes (timestamp) ) ; 
现在 行 键 如 下 所 示 : 

















0|timestamp1 
0 |timestamp5 
0 |timestamp6 
1|timestamp2 
1|timestamp9 
2|timestamp4 
2|timestamp8 

你 可 以 想到 ， 这 些 行将 会 基于 键 的 第 一 部 分 ， 也 就 是 随机 salt 数 ， 
分 布 在 各 个 region 。 

0ltimestamp1、0ltimestamp5 和 0|timestamp6 将 进入 一 个 region， 除 非 
发 生 region 拆 分 〈 拆 分 的 情况 下 会 分 散 到 两 个 region) 。1ltimestamp2 和 
1ltimestamp9 进 入 男 一 个 不 同 的 region，2ltimestamp4 和 2|ltimestamp8 进 入 
第 三 个 region。 连 续 时 间 戳 的 数据 散 列 进入 了 多 个 region。 

但 并 非 一 切 都 是 完美 的 。 现 在 读 操作 需要 把 扫 拉 命令 分 散 到 所 有 
region 上 来 查找 相应 的 行 。 因 为 它们 不 再 存储 在 一 起 ， 所 以 一 个 短 扫描 
不 能 解决 问题 了 。 这 是 一 种 权衡 ， 为 了 搭建 成 功 的 应 用 你 需要 做 出 选 
本 

4.5.2 为 读 优 化 


在 设计 推 帖 流 表 时 ， 你 的 焦点 是 为 读 优化 行 键 。 指 导 思 路 是 把 推 帖 
流 里 最 新 的 推 帖 存储 在 一 起 ， 以 便于 它们 可 以 被 快速 读 取 ， 而 不 用 做 开 
销 很 大 的 硬盘 搜索 。 这 里 不 仅仅 涉及 硬盘 搜索 ， 而 且 还 涉及 数据 是 否 存 
储 在 一 起 ， 尽 量 把 较 少 的 HFile 数据 块 读 入 内 存 ， 来 获得 要 寻找 的 数据 
集 。 因 为 数据 存储 在 一 起 ， 每 次 读 取 HFile 数据 块 时 可 以 比 数据 分 散 存 
储 时 得 到 更 多 的 信息 。 在 推 帖 流 表 里 ， 你 使 用 倒序 时 间 截 
(Long.MAX_VALUE -时间 惟 ) 然后 附加 上 用 户 ID 来 构成 行 键 。 现 在 
你 基于 用 户 ID 扫描 紧邻 的 n 行 就 可 以 找到 用 户 需 要 的 n 条 最 新 推 帖 。 这 里 
行 键 的 结构 对 于 读 性 能 很 重要 。 把 用 户 ID 放 在 开头 有 助 于 你 设置 扫描 ， 











可 以 轻松 定义 起 始 键 。 接 下 来 我 们 讨论 行 键 结 构 这 个 主题 。 
4.5.3 基数 和 行 键 结构 

行 键 结构 至 关 重 要 。 有 效 的 行 键 设计 不 仅 要 考虑 把 什么 放 入 行 键 
中 ， 而 且 要 考虑 它们 在 行 键 里 的 位 置 。 在 前 面 的 例子 里 ， 你 已 经 看 到 两 
种 行 键 结构 是 如 何 影 响 读 性 能 的 情况 。 

第 一 种 情况 是 关系 表 设 计 ， 在 那里 你 把 关系 类 型 放 在 两 个 用 户 ID 
之 间 。 因 为 读 操作 变 得 没有 效率 ， 这 种 做 法 效果 并 不 好 。 这 种 情况 下 ， 
即使 只 需要 指定 用 户 的 一 种 关系 类 型 的 信息 ， 你 也 不 得 不 读 出 《至 少 从 
硬盘 ) 两 种 关系 类 型 的 所 有 信息 。 把 关系 类 型 信息 移 到 行 键 的 前 部 能 够 
解决 这 个 问题 ， 这 种 行 键 允许 你 只 读 取 需要 的 数据 。 

第 二 种 情况 是 推 帖 流 表 ， 在 那里 你 把 倒序 时 间 戳 放 在 键 的 第 二 部 
分 ， 用 户 ID 放 在 第 一 部 分 。 这 文 持 你 基于 用 户 ID 执行 扫描 ， 限 制 读 取 
的 行 数 。 在 那里 如 果 改 变 行 键 里 两 部 分 的 次 序 会 导致 用 户 ID 信息 的 损 
失 ， 你 必须 扫描 一 个 时 间 范 围 来 得 到 推 帆 ， 但 是 这 个 时 间 范 围 的 返回 结 
果 包 含 这 个 时 间 范 围 里 的 所 有 用 户 的 推 帖 。 

为 了 创建 一 个 简单 的 示例 ， 我 们 考虑 时 间 区 间 1..10 内 的 倒序 时 间 
稚 。 系 统 里 有 3 个 用 户 ， 即 TheRealIMT、TheFakeMT 和 Olivia。 如 果 行 键 
把 用 户 ID 放 在 第 一 部 分 ， 行 键 如 下 所 示 《 按 照 它们 在 HBase 表 里 的 存储 
顺序 ) : 


但 是 ， 如 果 你 调换 键 的 顺序 ， 把 倒序 时 间 戳 放 在 第 一 部 
序 变 为 ; 


Olivial 
LTYEAaZ 
OLIVEaS 
OlL1iv1ial 
Olivia9 
TheFakeMT2 
TheFakeMT3 
TheFakeMT4 
TheFakeMT5 
TherFakeMT6 
TheRealMT1 
TheRealMT2 
TheRealMT5 
TheRealMT8 


lOlivia 
lTheRealMT 
201livia 
2TheFakeMT 
2TheRealMT 
3TheFakeMT 
4TheFakeMT 
SOlivia 
5TheFakeMT 


5TheRealMT 
6TheFakeMT 


TOLivia 
8TheRealMT 
901livia 


分 ， 


行 键 排 


因为 你 不 能 再 指定 用 户 ID 作为 扫 搬 恬 的 起 始 键 ， 获 取 任何 用 户 的 


最 新 n 条 推 帖 现 在 都 需要 扫描 整个 时 间 范 围 。 

现在 回顾 一 下 时 间 序 列 数据 的 例子 ， 在 那里 你 增加 了 一 个 salt 数 作 
为 时 间 戳 的 前 组 来 构成 行 键 。 这 样 做 可 以 在 写 入 时 把 负载 分 布 到 多 个 
region 上 。 当 碍 找 特定 时 间 区 间 的 数据 时 ， 你 只 需要 基于 所 有 salt 数 扫描 
多 个 区 间 (salt 数 的 数量 取决 于 RegionServer 的 数量 ) 。 这 是 一 个 利用 信 
息 的 位 置 来 获得 跨 region 分 布 的 经 典 例子 。 

提示 信息 在 行 键 里 的 位 置 和 选择 放 入 什么 信息 同等 重要 。 

到 现在 为 止 ， 我 们 研究 了 HBase 表 设计 的 几 个 概念 。 你 可 能 已 经 觉 
得 信心 百倍 ， 准 备 开 始 搭建 自己 的 应 用 系统 了 。 或 许 你 更 想 试 试 用 关系 
型 数据 库 表 建 模 的 知识 作为 镜子 审视 一 下 刚刚 学 到 的 知识 。 下 一 节 会 对 
这 方面 有 所 帮助 。 























4.6 开 ! 至 | 天 


为 了 搭建 应 用 系统 ， 你 可 能 使 用 过 关系 型 数据 库 系统 ， 并 且 涉 及 模 
式 设计 。 如 果 不 是 这 样 ， 并 且 你 没有 关系 型 数据 库 背 景 知识 ， 请 跳 过 本 
市 。 在 进一步 讨论 之 前 ， 我 们 需要 强调 以 下 观点 : 从 关系 型 数据 库 知 识 
映射 到 HBase 没 有 捷径 ， 它 们 是 不 同 的 思考 方式 。 

如 果 你 发 现 自 己 正在 从 关系 型 数据 库 模式 迁移 到 HBase， 我 们 第 一 
个 建议 是 不 要 迁移 (除非 绝对 必须 ) 。 就 像 我 们 说 过 的 ， 关 系 型 数据 库 
和 HBase 是 不 同 的 系统 ， 它 们 拥有 不 同 的 设计 特性 ， 可 以 影响 到 应 用 系 
统 的 设计 。 从 关系 型 数据 库 到 HBase 的 草率 迁移 是 一 个 陷阱 。 最 好 的 结 
局 是 ， 你 创建 了 一 套 复杂 的 HBase 表 来 实现 关系 型 模式 里 很 简单 的 东 
西 。 最 坏 的 结局 是 ， 你 失去 了 漫 淫 在 关系 型 系统 中 重要 而 巧妙 的 ACID 
保证 。 一 旦 一 个 应 用 系统 是 利用 了 关系 型 数据 库 提供 的 ACID 保 证 搭建 
起 来 的 ， 你 最 好 男 起 楼 灶 ， 重 新 思考 你 的 表 ， 想 想 它 们 如 何 实现 同样 的 
功能 。 














迄今 为 止 从 关系 型 系统 映射 到 非 关 系 型 系统 并 不 是 一 个 受到 很 多 关 
注 的 主题 。 曾 经 有 值得 注意 的 研究 生 毕 业 论 文 乌 研究 过 这 个 主题 。 在 
这 里 我 们 打算 做 一 些 类 比 ， 尺 量 让 学 习 过 程 简单 一 些 。 本 市 我 们 将 把 关 
系 型 数据 库 建 模 概 念 映 射 到 HBase 表 建 模 所 学 习 的 东西 上 去 。 这 些 概念 
不 一 定 是 一 对 一 的 映射 关系 ， 这 些 概念 正在 发 展 ， 它 们 是 在 越 来 越 多 的 
人 接受 NoSQL 系 统 的 过 程 中 被 定义 出 来 的 。 

4.6.1 一 些 基 


关系 型 数据 库 建 模 包 括 3 个 主要 概念 。 

加 实体 〈entitie ) 映射 到 表 (table)。 

四 属性 〈attribute ) 映射 到 列 (column) 。 

晶 联系 〈relationship ) 一 一 映射 到 外 键 〈foreign-key) 。 

这 3 个 概念 对 应 到 HBase 有 些 复杂 。 

1. 实体 

表 映 冉 到 表 。 这 可 能 是 从 关系 型 数据 库 到 HBase 世 界 的 最 显而易见 
的 映射 。 在 关系 型 数据 库 和 HBase 中 ， 实 体 的 容器 〈container) 是 表 ， 
表 中 每 行 代表 实体 的 一 个 实例 。 用 户 表 中 每 行 代 表 一 个 用 户 。 这 不 是 一 
个 铁 的 规则 ， 但 这 是 一 个 好 的 起 点 。HBase 迫 使 你 向 规 范 化 靠拢 ， 因 此 
关系 型 数据 库 中 构成 完整 表 的 许多 东西 最 终 成 为 HBase 中 的 某 些 东西 。 
很 快 你 就 会 明白 我 们 的 意思 。 

2. 属性 

为 了 把 属性 映射 到 HBase， 必 须 区 分 两 种 (至 少 ) 属性 类 型 。 

加 识别 属性 (identifying attribute ) 这 种 属性 可 以 唯一 地 精确 识 
别 出 实 体 的 一 个 实例 〈 也 就 是 一 行 ) 。 关 系 型 表 里 ， 这 种 属性 构成 表 的 
主键 (primary key) 。HBase 中 ， 这 种 属性 成 为 行 键 (rowkey) 的 一 部 
分 ， 如 在 本 章 前 面 看 到 的 ， 这 是 设计 HBase 表 时 需要 正确 处 理 的 最 重要 
的 事情 。 















































一 个 实体 经 常 是 由 多 个 属性 识别 出 来 的 。 这 一 点 正好 映射 到 关系 型 
数据 库 里 的 复合 键 (compound keys) 概念 : 例如 ， 当 你 定义 联系 时 。 
在 HBase 志 界 里 ， 识 别 属性 组 成 行 键 ， 如 你 在 follows 表 的 高 表 版 本 中 看 
到 的 。 把 产生 联系 的 用 户 的 用 户 ID 拼接 起 来 构成 行 键 。HBase 没 有 复合 
键 的 概念 ， 所 以 两 个 识别 属性 都 放 进 行 键 中 。 

使 用 定 长 值 会 让 事情 更 轻松 。 变 长 值 意味 着 你 需要 分 隔 符 和 在 客户 
端 代码 中 计算 出 构成 键 的 可 分 解 属性 的 拆 解 逻辑 。 定 长 还 会 让 推导 起 始 
键 和 停止 键 变 得 更 容易 一 些 。 束 像 在 follows 表 所 做 的 ， 获 得 定 长 值 的 一 
种 办 法 是 对 单个 属性 进行 散 列 运算 。 

注意 常见 做 法 是 使 用 多 个 属性 ， 把 它们 作为 行 键 的 一 部 分 ， 行 键 
是 字 节 数组 byte[]。 记 住 ，HBase 不 关心 数据 类 型 。 

加 韭 识 别 属性 (non-identifying attribute ) 韭 识别 属 性 更 容易 映 
射 。 在 HBase 中 它们 基本 映射 到 列 限 定 符 。 对 于 本 书 前 面 建立 的 users 表 
而 言 ， 非 识别 属性 是 诸如 密码 和 电子 邮件 地 址 这 些 东西 。 这 些 属性 不 需 
要 唯一 性 保证 。 

如 本 草 前 面 解释 的 ，HBase 中 每 个 键 值 对 拥有 全 套 坐标 : 行 键 、 列 
族 、 列 限定 符 和 时 间 版 本 。 如 果 你 的 关系 型 数据 库 表 有 宽 行 〈 数 十 或 数 
百 列 ) ， 可 能 不 希望 把 每 一 列 在 HBase 中 也 存储 为 一 列 〈 尤 其 是 在 大 部 
分 操作 是 一 次 处 理 一 整 行 的 情况 下 ) 。 相 反 ， 你 会 把 一 行 中 的 所 有 值 序 
列 化 成 单个 二 进 制 数据 ， 存 储 为 单个 单元 的 值 。 这 样 人 硬盘 占用 会 少 很 
多 ， 但 是 这 种 做 法 有 负面 影响 :原来 行 中 各 列 的 值 现 在 是 不 透明 的 ， 不 
能 使 用 HBase 表 提供 的 坐标 体系 直接 定位 到 原来 的 列 。 当 存储 空间 《〈 硬 
盘 和 网 络 IO) 更 为 重要 并 且 访 问 模式 总 是 读 取 整 行 时 ， 这 种 做 法 是 合理 
的 。 

3. 联系 

逻辑 关系 模型 使 用 两 种 主要 联系 : 一 对 多 和 多 对 多 。 在 关系 型 数据 
库 中 ， 把 前 者 直接 建 模 为 外 键 (foreign key) (无 论 是 数据 库 显 式 实现 









































为 约束 ， 还 是 隐 式 实现 为 查询 里 的 联结 ) ， 把 后 者 建 模 为 连接 表 
(junction table) 〈 一 种 附加 表 ， 其 中 每 行 代表 两 个 主 表 之 间 的 一 个 联 
系 实例 ) 。 在 HBase 中 没有 这 些 联系 的 直接 映射 ， 经 第 归结 为 数据 反 规 
泡 化 处 理 。 

需要 注意 的 第 一 件 事情 是 ，HBase 没有 内 建 的 联结 (join) 或 约束 
Cconstrain) ， 几 乎 不 使 用 显 式 联 系 。 你 很 容易 把 一 对 多 性 质 的 数据 放 
进 HBase 表 里 : 一 张 表 存 储 用 户 ， 另 一 张 表 存 储 他 们 的 推 帖 。 但 只 是 前 
表 行 里 的 某 些 部 分 和 后 表 行 键 的 某 些 部 分 正好 有 关联 。HBase 不 知道 这 
种 联系 ， 所 以 需要 你 的 应 用 来 处 理 这 种 联系 《如 果 有 的 话 ) 。 如 同 前 面 
提 到 的 ， 如 果 某 个 作业 打算 返回 你 关注 的 所 有 用 户 的 所 有 推 帖 ， 在 
HBase 中 你 不 能 使 用 一 个 联结 或 子 碍 询 做 到 这 一 点 。 在 SQL 里 ， 可 以 这 
样 做 : 
SELECT * FROM twit WHERE user id IN 
(SELECT user id from followees WHERE follower = me) 
ORDER BY date DESC limit 10; 

相反 ， 在 HBase 中 ， 你 需要 在 系统 外 面 写 代码 ， 人 驳 过 历 所 有 被 关 注 


用 户 ， 然 后 对 每 个 用 户 分 别 执行 HBase 查 表 操 作 来 找到 他 们 的 最 新 推 帖 
(或 者 如 同 前 面 介绍 的 ， 采 用 反 规 范 化 处 理 思路 ， 为 每 个 粉丝 建立 推 帖 
副本 ) 。 

就 像 你 看 到 的 ， 除 了 通过 外 部 应 用 实现 的 隐 式 联系 外 ， 在 HBase 中 
没有 办 法 真正 联结 不 同 数据 记录 。 至 少 到 现在 还 没有 办 法 ! 


4.6.2 馈 套 实体 


HBase 一 个 引 人 瞩 目的 特别 之 处 在 于 ， 列 《也 叫做 列 限定 符 ) 不 需 
要 在 设计 时 预先 定义 。 它 们 可 以 是 任何 东西 。 在 之 前 例子 中 ，follows 
表 的 早期 版 本 里 每 个 用 户 有 一 行 ， 每 个 被 关注 对 象 有 一 列 〈《 驳 是 用 整数 
计数 器 作为 列 限定 符 ， 然 后 是 用 被 关注 用 户 名 字 作 为 列 限定 符 ，。 这 代 
表 了 在 一 个 父 实 体 或 主 实体 的 行 里 嵌 套 为 一 个 实体 的 能 力 ( 见 图 4- 











14) ， 注 意 这 还 远 不 是 一 个 灵活 的 模式 行 (flexible schema row) 。 


HBase 表 


列 族 


固定 限定 符 -> 时 间 戳 -> 值 
重复 实体 
可 变 限定 符 -> 时 间 稚 -> 值 


嵌 套 的 实体 





图 4-14 HBase 表 里 的 骸 套 实体 
舱 套 的 实体 是 从 关系 型 映射 到 非 关 系 型 的 又 一 个 工具 : 如 果 你 的 表 
以 父子 、 主 从 或 其 他 严格 的 一 对 多 联系 存在 ， 在 HBase 中 就 可 以 用 一 个 
单行 来 建 模 。 行 键 相 当 于 父 实体 。 骨 套 的 值 将 包含 子 实体 ， 在 这 里 每 个 
子 实体 得 到 一 个 包含 识别 属性 的 列 限定 符 ， 以 及 包含 其 他 非 识 别 属性 的 
值 ( 例 如， 拼接 在 一 起 ) 。 子 实体 的 记录 存储 为 单个 列 〈 见 图 4-15) 。 


HBase 表 


了 键 〖。 键 属性 | 。 byte[8] 
键 属性 2 timestamp 











列 ] String 
列 2 byte[?] 








图 4-15 HBase 表 可 以 包含 常规 列 ， 也 可 以 包含 舱 套 实体 
在 这 种 模式 下 有 一 个 附加 的 好 处 ， 因 为 在 HBase 中 行 是 事务 保护 的 





边界 ， 所 以 你 在 父子 记录 上 可 以 得 到 事务 保护 。 因 此 你 可 以 执行 check 
和 pnut 操 作 ， 一 般 来 说 可 以 确保 你 的 所 有 修改 被 封装 在 一 起 ， 要 么 一 起 
提交 要 么 一 起 失败 。 由 于 HBase 列 的 设计 方式 ， 你 可 以 运用 HBase 的 灵 
活性 写 入 内 套 实体 。 但 HBase 不 一 定 能 够 存储 从 套 的 实体 。 

当然 这 种 技术 有 一 些 局 限 性 。 第 一 ， 这 种 技术 只 能 藤 套 一 层 : 骸 套 
实体 自身 不 能 再 有 骸 套 实体 。 你 仍然 可 以 在 一 个 父 实体 下 有 多 个 不 同 的 
网 套子 实体 ， 用 识别 属性 作为 列 限 定 符 。 

第 二 ， 如 同 本 章 前 面 学 习 的 ， 与 访问 另 一 张 表 的 一 行 相 比 ， 在 一 行 
里 访问 在 藤 套 列 限 定 符 下 存储 的 单个 值 效率 不 高 。 

但 是 ， 有 一 些 没 有 选择 的 场景 ， 在 这 种 场景 中 这 种 模式 设计 是 恰当 
的 。 如 果 你 得 到 子 实体 的 唯一 方法 是 通过 父 实体 ， 并 且 你 希望 在 一 个 父 
实体 的 所 有 子 实体 上 有 事务 级 保护 ， 这 种 技术 是 最 正确 的 选择 。 

至 于 多 对 多 联系 ， 情 况 变 得 有 些 复杂 。HBase 不 能 帮助 你 做 优化 的 
联结 或 者 类 似 的 事情 而且 因为 每 个 多 对 多 联系 有 两 个 父亲， 你 也 不 能 
通过 骸 套 一 个 实体 的 做 法 处 理 这 种 联系 。 这 种 联系 经 常 转换 为 反 规 范 化 
处 理 ， 如 同 本 章 前 面 follows 表 的 例子 里 所 做 的 。 你 反 规范 化 处 理 了 粉丝 
联系 ， 这 是 一 种 自 参 照 的 多 对 多 用 户 联系 。 

上 述 这 些 是 从 关系 型 建 模 知识 映射 到 HBase 概 念 的 基本 内 容 。 


4.6.3 没有 映射 到 的 一 些 东西 


到 现在 为 止 ， 你 已 经 可 以 把 一 堆 概 念 从 关系 型 世界 映射 到 HBase。 
但 我 们 还 没有 谈 到 列 族 。 它 在 关系 型 世界 里 没有 对 应 的 概念 ! 在 HBase 
中 列 族 在 一 行 里 包含 不 相干 的 许多 列 ， 它 在 物理 上 高 效 存储 并 且 自 动 处 
理 。 关 系 型 数据 库 不 做 这 样 的 事情 ， 除 非 你 使 用 了 像 Vertica 那 样 的 列 式 
数据 库 或 者 是 商业 关系 型 数据 库 的 专用 分 析 特 性 。 

1. 列 族 

可 以 把 列 族 理解 为 建 模 了 另 一 种 之 前 没有 提 到 的 联系 ; 一 对 一 联 























系 ， 在 这 种 联系 中 你 有 两 张 拥有 相同 主键 的 表 ， 每 个 主键 在 每 张 表 里 有 
0 或 1 个 行 。 一 个 例子 是 用 户 个 人 信息 《电子 邮件 地 址 、 生 日 等 ) 和 用 户 
系统 参数 (背景 闫 色 、 字 体 大 小 等 ) 。 在 关系 型 数据 库 里 通常 把 这 些 信 
恩 建 模 成 两 张 不 同 的 物理 表 ， 主 要 考虑 是 SQL 语句 几乎 总 是 命中 这 张 
或 那 张 表 ， 很 少 同时 访问 两 张 表 ， 所 以 分 成 两 张 表 性 能 更 好 。 (这 在 很 
大 程度 上 取决 于 你 在 使 用 什么 数据 库 和 很 多 其 他 因素 ， 但 实际 情况 的 确 
如 此 。) 

而 在 HBase 中 ， 在 一 张 表 里 使 用 两 个 列 族 正好 合适 。 同 样 ， 之 前 讨 
论 的 舱 套 实体 联系 可 以 轻松 划分 成 不 同 的 列 族 ， 前 提 是 你 不 太 可 能 同时 
访问 两 个 列 族 。 

一 般 来 说 ， 在 HBase 中 使 用 多 个 列 族 是 一 种 高 级 特性 ， 只 有 当 你 确 
定 知道 这 样 做 的 代价 时 ， 你 才 应 该 使 用 多 个 列 族 。 

2 有 

从 关系 型 迁移 到 HBase 的 男 一 个 常见 问题 是 : 索引 怎么 办 ? 在 关系 
型 数据 库 中 ， 很 容易 声明 索引 并 且 由 数据 库 引 擎 自动 维护 ， 这 种 能 力 是 
关系 型 系统 提供 的 最 有 吸引 力 且 最 有 用 的 功能 之 一 。 在 HBase 中 却 找 不 
到 索引 。 直 到 现在 ， 问 题 的 答案 是 : 很 不 季 ， HBase 没 有 索引 。 

你 可 以 通过 反 规 范 化 处 理 数 据 和 写 入 多 张 表 来 获得 这 个 特性 的 一 些 
近似 方法 ， 但 是 别 搞 错 : 当 你 选择 HBase 时 ， 显 然 你 在 放弃 一 个 温暖 舒 
适 的 世界 ， 在 那里 一 个 简单 的 CREATE INDEX 语句 就 可 以 解决 重大 的 
性 能 问题 。 在 HBase 中 ， 你 不 得 不 预先 解决 所 有 这 些 问题 ， 在 模式 设计 
里 考虑 这 些 访问 模式 。 

3. 时 间 版 本 

在 关系 型 数据 库 和 非 关 系 型 数据 库 之 间 还 有 最 后 一 个 有 趣 的 不 同 : 
时 间 维 度 。 在 关系 型 模式 里 ， 如 果 把 时 间 惟 显 式 存 储 在 某 个 地 方 ， 许 多 
情况 下 这 可 以 归 类 为 在 HBase 单 元 中 使 用 的 时 间 戳 。 注 意 ， 关 系 型 系统 
时 间 惟 只 是 数据 类 型 long， 因 此 如 果 你 需要 的 不 仅仅 是 64 位 long 类 型 






































的 UNIX 时 代 的 时 间 惟 ， 可 以 试 试 HBase 的 时 间 戳 CUNIX 时 间 惟 可 能 不 
适合 在 原子 弹 模拟 中 存储 时 间 粒 度 ) 。 

更 大 的 好 处 是 ， 你 的 应 用 系统 现在 可 以 考虑 放弃 在 表 里 存储 数据 值 
历史 版 本 的 做 法 在 一 种 叫做 历史 表 的 关系 型 模式 里 ， 通 常 使 用 和 主 表 
相同 的 主键 外 加 一 个 时 间 惟 ， 来 保存 基于 时 间 的 行 的 副本 ) : 欢呼 吧 ! 
你 可 以 扔 掉 那 种 愚蠢 的 做 法 了 ， 代 之 以 一 个 HBase 实 体 ， 只 需要 在 列 族 
元 数据 里 设 定 合理 保存 的 时 间 版 本 数量 就 可 以 了 。 这 种 情况 在 HBase 里 
大 大 得 到 简化 。 关 系 模型 的 原始 架构 设计 里 没有 把 时 间 看 做 关系 模型 的 
一 个 特殊 维度 ， 但 是 让 我 们 在 HBase 中 面 对 它 : 时 间 是 一 个 维度 。 

我 们 希望 你 带 着 多 年 学 习 关 系 型 数据 库 设 计 的 知识 转向 HBase 时 感 
觉 民 好。 如 果 你 理解 逻辑 建 模 的 基本 原理 ， 并 且 知 道 在 HBase 中 可 用 的 
模式 维度 ， 你 就 有 机 会 保持 自己 的 设计 意图 。 

















HBase 有 几 个 高 级 特性 ， 在 设计 表 时 可 以 使 用 。 这 些 特性 不 一 定 联 
系 到 模式 或 行 键 设计 ， 但 是 它们 定义 了 表 的 行为 的 某 些 方面 。 本 节 我 们 
会 讨论 这 些 配置 参数 ， 以 及 可 以 如 何 使 用 它们 。 
4.7.1 可 配置 的 数据 块 大 小 


HFile 数 据 块 大 小 可 以 在 列 族 层次 设置 。 这 个 数据 块 不 同 于 之 前 谈 
到 的 HDFS 数 据 块 。 其 默认 值 是 65 536 字 节 ， 即 64 KB。 数 据 块 索引 存储 
每 个 HFile 数据 块 的 起 始 键 。 数 据 块 大 小 配置 会 影响 数据 块 索引 的 大 
小 。 数 据 块 越 小 ， 索 引 越 大 ， 因 而 占用 的 内 存 空 间 越 大 。 同 时 ， 因 为 加 
载 进 内 存 的 数据 块 更 小 ， 随 机 查找 性 能 更 好 。 但 是 如 果 你 需要 更 好 的 顺 
序 扫 朱 性能， 那么 一 次 能 够 加 载 更 多 HFile 数 据 进入 内 存 则 更 为 合理 ， 
这 意味 着 数据 块 大 小 应 该 设置 为 更 大 的 值 。 相 应 地 索引 变 小 ， 你 将 在 随 





机 读 性 能 上 付出 代价 。 
你 可 以 在 表 实 例 化 时 设置 数据 块 大 小 ， 如 下 所 示 : 


hbase (main) :002:0> create ‘mytable', 
{NAME => 'colfaml', BLOCKSIZE => '65536'} 


4.7.2 数据 块 缓存 


把 数据 放 进 读 缓存 ， 但 工作 负载 却 经 常 不 能 从 中 获得 性 能 提升 。 例 
如 ， 如 有 果 一 张 表 或 表 里 的 列 族 只 被 顺序 扫描 访问 或 者 很 少 被 访问 ， 你 不 
会 介意 Get 或 Scan 化 费 时 间 是 否 有 点 儿 长 。 在 这 种 情况 下 ， 你 可 以 选择 
关闭 那些 列 族 的 缓存 。 如 果 只 是 执行 很 多 顺序 扫描 ， 你 会 多 次 倒 腾 绥 
存 ， 并 且 可 能 会 滥用 缓存 把 应 该 放 进 缓存 获得 性 能 提升 的 数据 给 排挤 出 
去 。 关 闭 缓 存 不 仅 可 以 避免 上 述 情况 发 生 ， 而 且 可 以 让 出 更 多 缓存 给 其 
他 表 和 同一 表 的 其 他 列 族 使 用 。 

数据 块 缓存 默认 是 打开 的 。 你 可 以 在 新 建 表 或 者 更 改 表 时 关闭 它 : 


hbase (main) :002:0> create 'mytable', 
{NAME => 'colfaml', BLOCKCACHE => 'false'| 











你 可 以 选择 一 些 列 族 ， 赋 予 它们 在 数据 块 缓存 里 有 更 高 的 优先 级 
(LRU 绥 存 〉。 如 有 果 你 预期 一 个 列 族 比 男 一 个 列 族 的 随机 读 更 多 ， 这 个 
特性 迟早 用 得 上 。 这 个 配置 也 是 在 表 实 例 化 时 设 定 : 

hbase (main) :002:0> create 'mytable', 

{NAME => 'colfaml', IN MEMORY => 'true')} 

IN_MEMORY 参 数 的 默认 值 是 false。 因 为 HBase 除 了 在 数据 块 缓存 
里 保存 这 个 列 族 相 比 其 他 列 族 更 激进 之 外 并 不 提供 额外 的 保证 ， 所 以 该 
参数 在 实践 中 设置 为 true 不 会 变化 太 大 。 


4.7.4 布 降 过 波 器 
数据 块 索引 提供 了 一 种 有 效 的 方法 ， 在 访问 一 个 特定 的 行 时 用 来 查 


找 应 该 读 取 的 HFile 的 数据 块 。 但 是 它 的 效用 很 有 限 。HFile 数据 块 的 默 
认 大 小 是 64 KB， 这 个 大 小 不 能 调整 太 多 。 

如 有 果 要 查找 一 个 短 行 ， 只 在 整个 数据 块 的 起 始 行 键 上 建立 索引 是 无 
法 给 你 细 粒 度 的 索引 信息 的 。 例 如 ， 如 果 你 的 行 占用 100 字 节 存储 空 
间 ， 一 个 64 KB 的 数据 块 包含 (64x 1024)/100 = 655.53 = 一 700 行 ， 而 你 
只 能 把 起 始 行 放 在 索引 位 上 。 你 要 得 找 的 行 可 能 沙 在 特定 数据 块 的 区 间 
里 ， 但 也 不 是 肯定 在 那个 数据 块 上 。 这 有 多 种 可 能 的 情况 ， 或 者 该 行 在 
表 里 不 存在 ， 或 者 该 行 在 男 一 个 HFile 里 ， 甚 至 在 MemStore 里 。 在 这 些 
情况 下 ， 从 硬盘 读 取 数 据 块 会 带 来 IO 开销 ， 也 会 滥用 数据 块 缓存 。 这 
会 影响 性 能 ， 尤 其 是 当 你 面 对 一 个 巨大 的 数据 集 并 且 有 很 多 并 发 读 用 户 
时 。 

布 隆 过 滤器 允许 对 存储 在 每 个 数据 块 的 数据 做 一 个 反 同 测试 。 当 某 
行 被 请 求 时 ， 先 检查 布 隆 过 滤器 ， 看 看 该 行 是 否 不 在 这 个 数据 块 中 。 布 
隆 过 滤器 要 么 确定 回答 该 行 不 在 ， 要 么 回答 它 不 知道 。 这 就 是 为 什么 称 
它 是 有 反 同 测试 。 布 隆 过 滤器 也 可 以 应 用 到 行 中 的 单元 上 。 当 访问 某 列 限 
定 符 时 先 使 用 同样 的 反 辣 测试 。 

布 隆 过 滤器 也 不 是 没有 代价 的 。 存 储 这 个 额外 的 索引 层 会 占用 额外 
的 空间 。 布 隆 过 滤器 随 着 它们 索引 的 对 象 数 据 增 长 而 增长 ， 所 以 行 级 布 
隆 过 滤器 比 列 限定 符 级 布 隆 过 滤器 占用 空间 要 少 。 当 空间 不 是 问题 时 ， 
它们 可 以 帮助 你 “ 榨 干 ”系统 的 性 能 潜力 。 

你 可 以 在 列 族 上 局 用 布 隆 过 滤器 ， 如 下 所 示 : 

hbase (main) :007:0> create ‘mytable', 

{NAME => 'colfaml', BLOOMFILTER => 'ROWCOL'} 
BLOOMFILTER 参 数 的 默认 值 是 NONE。 一 个 行 级 布 隆 过 滤器 用 
ROW 启动 ， 列 限定 符 级 布 隆 过 滤器 用 ROWCOL 启动 。 行 级 布 隆 过 滤器 
在 数据 块 里 检查 特定 行 键 是 否 不 存在 ， 列 限定 符 级 布 隆 过 小 器 检查 行 和 
列 限定 符 组 合 是 否 不 存在 。ROWCOL 布 隆 过 滤器 的 开销 高 于 ROW 布 隆 

















过 滤器 O 
4.7.5 生存 时 间 (TTL) 


应 用 系统 经 党 需要 从 数据 库 里 删除 老 数 据 。 因 为 数据 库 很 难 超过 某 
种 规模 ， 所 以 传统 上 数据 库 内 置 了 许多 灵活 的 处 理 办 法 。 例 如 ， 在 
TwitBase 里 你 不 想 删 除 用 户 在 使 用 应 用 系统 期 间 生 成 的 任何 推 帖 。 这 些 
都 是 用 户 生成 的 数据 ， 将 来 某 一 天 执行 一 些 高 级 分 析 时 可 能 有 用 。 但 是 
并 不 需要 保持 所 有 推 帖 都 能 实时 访问 。 所 以 ， 早 于 某 个 时 间 的 推 帖 可 以 
归档 存放 到 平面 文件 里 。 

HBase 可 以 让 你 在 数秒 内 在 列 族 级 设置 一 个 TIL。 早 于 指定 TIL 
值 的 数据 在 下 一 次 大 合并 时 会 被 删除 。 如 果 你 在 同一 单元 上 有 多 个 时 间 
版 本 ， 早 于 设 定 TIL 的 版 本 会 被 删除 。 你 可 以 禁用 TIL， 或 者 通过 设置 
其 值 为 INT.MAX_VALUE (2147483647) 让 它 永远 启用 〈 这 是 默认 值 ) 。 
你 可 以 在 建 表 时 设置 TTL， 如 下 所 示 : 


hbase (main) :002:0> create 'mytable', {NAME => 'colfaml', TTL => '18000') 


该 命令 在 colfam1 列 族 上 设置 TTL 为 18 000 秒 ， 即 5 小 时 。 
colfam1 中 超过 5 小 时 的 数据 将 会 在 下 一 次 大 合并 时 被 删除 。 


4.7.6 压 绾 


HFile 可 以 被 压缩 并 存放 在 HDFS 上 。 这 有 助 于 节省 硬盘 IO， 但 是 读 
写 数据 时 压缩 和 解压 缩 会 抬 高 CPU 利用 率 。 压 缩 是 表 定 义 的 一 部 分 ， 可 
以 在 建 表 或 模式 改变 时 设 定 。 我 们 推荐 你 启用 表 的 压缩 ， 除 非 你 确定 不 
会 从 压缩 中 受益 。 只 有 在 数据 不 能 被 压缩 或 者 因为 某 种 原因 服务 器 的 
CPU 利用 率 有 限制 要 求 的 情况 下 ， 有 可 能 会 禁用 压缩 特性 。 

HBase 可 以 使 用 多 种 压缩 编码 ， 包 括 LZO、Snappy 和 GZIP。LZO J 
和 Snappy 中 是 其 中 最 流行 的 两 种 。Snappy 在 2011 年 由 Google 发 布 ， 发 
布 不 久 ，Hadoop 和 HBase 项 目 就 开始 提供 文 持 。 在 此 之 前 ， 选 择 的 是 
LZO 编 码 。Hadoop 使 用 的 LZO 原 生 库 受 GPLv2 版 权 控 制 ， 不 能 放 在 











Hadoop 和 HBase 的 任何 发 行 厂 里 ， 必 须 单 独 安装 。 但 是 ，Snappy 拥 有 
BSD 许 可 (BSD-licensed) ， 所 以 更 容易 与 Hadoop 和 HBase 发 行 版 捆绑 
在 一 起 。LZO 和 Snappy 的 压缩 比例 和 压缩 /解压 缩 速 度 差不多 ， 

建 表 时 ， 你 可 以 在 列 族 上 启用 压缩 ， 如 下 所 示 : 


hbase (main) :002:0> create 'mytable ' ， 
{NAME => 'colfaml', COMPRESSION => 'SNAPPY') 
注意 ， 数 据 只 在 人 硬盘 上 是 压缩 的 ， 在 内 存 里 (MemStore 或 
BlockCache) 或 通过 网 络 传输 时 是 没有 压缩 的 。 
改变 压缩 编码 的 做 法 不 应 该 经 常 发生， 但 是 如 果 的 确 需要 改变 茶 个 
列 族 的 压 纺 编 码 ， 直 接 做 就 可 以 。 你 需要 更 改 表 定义 ， 设 定 新 的 压缩 编 
码 。 此 后 合并 时 ， 生 成 的 HFile 全 部 会 采用 新 编码 压缩 。 这 个 过 程 不 需 
要 创建 新 表 和 复制 数据 。 但 你 要 确保 ， 直 到 改变 编码 后 ， 所 有 旧 的 
HFile 被 合并 后 才能 从 集群 中 删除 旧 的 编码 函数 库 。 


4.7.7 单元 时 局 


在 默认 情况 下 HBase 每 个 单元 维护 3 个 时 间 版 本 。 这 个 属性 是 可 以 设 
置 的 。 如 果 只 需要 一 个 版 本 ， 推 荐 你 在 设置 表 时 只 维护 一 个 版 本 。 这 样 
系统 就 不 会 保留 你 更 新 的 单元 的 多 个 时 间 版 本 了 。 时 间 版 本 也 是 在 列 族 
级 设置 的 ， 可 以 在 表 实 例 化 时 设 定 : 


hbase (main) :002:0> create 'mytable', {NAME => 'colfaml', VERSIONS => 1) 


你 可 以 在 同一 个 create 语 句 里 为 列 族 指 定 多 个 属性 ， 如 下 所 示 : 
hbase (main) :002:0> create 'mytable', 
{NAME => 'colfaml', VERSIONS => 1, TTL => '18000') 


你 也 可 以 指定 列 族 存储 的 最 少时 间 版 本 数 ， 如 下 所 示 : 
hbase (main) :002:0> create 'mytable', {NAME => 'colfaml', VERSIONS => 5, 
MIN VERSIONS => '1'} 


在 列 族 上 同时 设 定 TTL 迟早 也 是 有 用 的 。 如 果 当 前 存储 的 所 有 时 
间 版 本 都 早 于 TIL， 那 么 至 少 MIN_VERSION 个 最 新 版 本 会 保留 下 来 。 
这 样 确保 在 你 做 查询 时 所 有 数据 早 于 TIL 时 还 有 结果 返回 。 





























到 现在 为 止 ， 你 已 了 解 到 HBase 拥 有 灵活 的 逻辑 模式 和 简单 的 磁盘 
布局 ， 它 们 允许 应 用 系统 的 计算 工作 更 接近 人 硬盘 和 网 络 ， 并 在 这 个 层次 
上 进行 优化 。 设 计 有 效 的 模式 是 使 用 HBase 的 一 个 方面 ， 你 已 经 掌握 了 
一 堆 概 念 用 来 做 到 这 一 点 。 你 可 以 设计 行 键 ， 让 访问 的 数据 在 人 硬盘 上 也 
存放 在 一 起 ， 以 便 读 写 操作 时 可 以 节省 硬盘 寻 道 时 间 。 在 读 取 数 据 时 ， 
你 经 常 需要 基于 某 种 标准 进行 操作 ， 你 可 以 进一步 优化 数据 访问 。 过 滤 
器 就 是 在 这 种 情况 下 使 用 的 一 种 强大 的 功能 。 

我 们 还 没有 谈 到 过 滤器 的 真实 使 用 场景 ， 一 般 来 襄 ， 调 整 表 设计 就 
可 以 优化 访问 模式 的 。 但 是 ， 有 时 你 已 经 把 表 设 计 调 整 得 尽 可 能 好 了 ， 
也 尽 可 能 针对 不 同 访问 模式 做 了 优化 。 当 你 仍然 需要 减少 返回 客户 端的 
数据 时 ， 这 就 是 考虑 使 用 过 滤器 的 时 候 了 。 有 时 候 过 滤器 也 被 称 为 下 推 
判断 器 (push-down predicate) ， 文 持 你 把 数据 过 滤 标 准 从 客户 端 下 推 
到 服务 器 〈 见 图 4-16) 。 这 些 过 滤 逻 辑 在 读 操作 时 使 用 ， 对 返回 给 客户 
问 的 数据 有 影响 。 这 样 可 以 通过 减少 网 络 传输 的 数据 来 节省 网 络 IO。 
但 是 数据 仍然 需要 从 硬盘 读 进 RegionServer， 过 滤器 只 是 在 RegionServer 
里 发 挥 作用 。 因 为 你 有 可 能 在 HBase 表 里 存储 了 大 量 数据 ， 所 以 网 络 IO 
的 节省 是 有 重要 意义 的 ， 并 且 先 读 出 全 部 数据 送 到 客户 端 再 过 滤 出 有 用 
的 数据 ， 这 种 做 法 开销 很 大 。 

HBase 提 供 了 一 个 API， 你 可 以 用 它 来 实现 定制 过 滤器 。 多 个 过 渡 
器 也 可 以 捆绑 在 一 起 使 用 。 可 以 在 读 过 程 最 开始 的 地 方 ， 基 于 行 键 进行 
过 滤 处 理 。 此 后 ， 也 可 以 基于 HFile 读 出 的 KeyValues 进行 过 滤 处 理 。 
过 滤器 必须 实现 HBase JAR 包 中 的 Filter 接 口 ， 或 者 扩展 一 个 实现 了 该 接 
口 的 抽象 类 。 我 们 推荐 扩展 FilterBase 抽象 类 ， 这 样 你 就 不 需要 写 样板 
代码 。 扩 展 其 他 类 (如 CompareFilter 类 ) 也 是 一 个 选择 ， 同 样 可 以 正常 
工作 。 当 读 取 一 行 时 该 接口 有 下 面 几 个 方法 ， 可 以 在 多 个 地 方 调用 《〈 顺 





























序 如 图 4-17 所 示 ) 。 它 们 总 是 按照 下 面 描述 的 顺序 来 执行 。 
(61) 这 个 方法 第 一 个 被 调用 ， 基 于 行 键 执行 过 滤 : 
boolean filterRowKey (byte [] buffer, int offset, int length) 


基于 这 里 的 逻辑 ， 如 果 行 需要 被 过 滤 挥 (不 出 现在 发 送 结 果 集 合 
里 ) 返回 true; 否则 ， 如 果 需 要 发 送 给 客户 端 则 返回 false。 
| 
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任何 时 候 都 发 送 全 部 数据 
图 4-16 在 客户 端 完 成 数据 过 滤 ， 即 从 RegionServer 把 数据 读 取 到 客 


户 端 ， 在 客户 端 使 用 过 滤器 逻辑 处 理 数 据 ; 或 者 在 服务 器 端 完成 数据 过 

滤 ， 即 把 过 滤 逻 辑 下 推 到 RegionServer， 因 此 减少 了 在 网 络 上 传输 到 客 

户 端的 数据 量 。 实 质 上 过 滤器 可 以 节省 网 络 IO 的 开销 ， 有 时 甚至 是 便 盘 
IO 的 开销 

(2) 如 果 该 行 没 有 在 上 一 步 被 过 滤 挤 ， 接 着 调用 这 个 方法 处 理 当 


前 行 的 每 个 KeyValue 对 象 : 
ReturnCode filterKkeyValue (KeyValue V) 
这 个 方法 返回 一 个 ReturnCode， 这 是 在 Filter 接 口中 定义 的 一 个 枚 举 


(enum) 类 型 。 返 回 的 ReturnCode 用 于 判断 该 KeyValue 对 象 将 要 发 生 什 





只 发 送 符合 过 
滤器 标准 的 数据 过 滤器 
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(3) 在 第 2 步 过 滤 KeyValues 对 象 后 ， 接 着 是 这 个 方法 : 
void filterRow(List<KeyValue> kvs) 
这 个 方法 被 传 入 成 功 通过 过 滤 的 KeyValue 对 象 列表 。 倘 车 这 个 方法 





访问 到 这 个 列表 ， 此 时 你 可 以 在 列表 里 的 元 素 上 执行 任何 转换 或 运算 。 

(4) 如 果 你 选择 过 滤 掉 某 些 行 ， 此 时 这 个 方法 再 一 次 提供 了 这 么 
做 的 机 会 : 

boolean filterRow!() 

返回 true 将 过 滤 挥 正在 计算 的 行 。 

(5) 可 以 在 过 滤器 里 构建 逻辑 来 提早 停止 一 次 扫描 。 你 可 以 把 该 
逻辑 放 进 这 个 方法 : 

boolean filterAllRemaining () 

当 扫 摘 很 多 行 ， 在 行 键 、 列 限定 符 或 单元 值 里 查找 指定 东西 时 ， 
旦 找到 目标 ， 你 束 不 再 关心 剩 下 的 行 了 。 此 时 使 用 这 个 方法 很 方便 。 这 
是 过 小 流程 中 最 后 调用 的 方法 。 












a 基于 单个 KevValue 对 象 
从 region 基于 行 键 进行 过 滤 吗 ? 进行 
里 取出 下 一 行 [filterRowKey(.. 进行 过 沪 


过 滤 掉 所 有 
剩 下 的 行 ? 


[人 ilLterKeyYValue(..)] 


最 后 一 次 过 滤 在 成 功 通过 过 滤 的 
掉 行 的 机 会 KeyValue 对 象 上 进行 转换 


[filterRow!()] [filterRow(..)] 


添加 到 发 送 回 客户 端的 结果 里 
图 4-17 过 滤 流 程 的 各 个 步骤 。 扫 描 霹 对 象 扫描 东 个 范围 里 的 每 行 都 


会 执行 这 个 流程 
另 一 个 有 用 的 方法 是 resetD)。 它 会 重 置 过 滤器 ， 在 被 应 用 到 整 行 后 
由 服务 器 调用 。 
注意 这 个 API 很 强大 ， 但 是 我 们 不 觉得 应 该 在 应 用 系统 里 大 量 使 
用 。 许 多 情况 下 ， 如 果 模 式 设计 改变 了 ， 使 用 过 滤器 的 需求 也 会 改变 。 











在 一 直 搭 建 的 TwitBase 里 ， 随 着 应 用 系统 变 得 成 熟 和 获得 更 多 用 
户 ， 你 意识 到 ， 对 于 新 用 户 ， 使 用 的 密码 长 度 策略 不 足以 保证 密码 安 
全 ， 需 要 实施 一 种 新 的 密码 策略 ， 虽 然 很 简单 : 现在 TwitBase 要 求 所 有 
用 户 的 密码 长 度 至 少 大 于 4 个 字符 。 这 个 新 策略 新 老 用 户 同 样 适用 。 为 
了 对 老 用 户 实 施 这 个 密码 策略 ， 你 需要 检查 用 户 的 整个 列表 ， 检 查 他 们 
的 密码 长 度 。 如 果 和 密码 长 度 少 于 4 个 字符 ， 密 人 码 将 会 失效 ， 你 将 会 发 送 
通知 给 用 户 ， 告 知 他 们 新 的 密码 策略 ， 并 且 告 知 他 们 需要 采取 的 行动 : 
重 置 为 至 少 6 个 字符 长 的 密码 。 

你 可 以 使 用 一 个 检查 单元 值 长 度 的 定制 过 滤器 来 实现 这 一 点 。 这 个 
过 滤器 可 以 被 应 用 到 一 次 扫描 里 〈 或 是 一 个 MapReduce 作 业 ) ， 其 输出 
只 包括 需要 给 其 发 送 密码 更 改 通知 的 用 户 。 其 输出 内 容 包括 用 户 名 、 用 
户 ID 和 电子 邮件 地 址 。 你 可 以 执行 一 次 扫描 来 实现 它 ， 也 可 以 轻易 把 
扫描 转换 为 一 个 MapReduce 作 业 。 

你 需要 构建 的 过 滤器 只 关心 密码 的 单元 值 ， 不 关心 其 他 ， 这 个 过 渡 
逻辑 适合 及 用 filterKeyValue(..) 方 法 ， 使 用 该 方法 检查 密码 的 列 。 如 果 密 
码 长 度 低 于 最 小 要 求 ， 该 行 被 收入 到 结果 集合 里 ;人 否则 该 行 被 过 滤 邱 。 
该 行 的 收入 /过 滤 操 作 由 filterRow0 方 法 完成 ， 如 代码 清单 4-1 所 示 。 

代码 清单 4-1 实现 一 个 定制 过 滤器 来 检查 密码 长 度 











public class PasswordStrengthFilter extends FilterBase { 扩展 FilterBase 抽 


Os SA Re 象 类 的 定制 过 滤器 
private boolean filterRow = false; 


public PasswordSstrengthFilter() { 





super (); 构造 函数 采用 密码 hy 
} 长 度 作为 输入 参数 | 检查 密友 长度: 如 果 密 
也 长 时 :小 亚 求 
public PasswordStrengthFilter(int len) { ee 
i 度 ， 该 行 被 过 滤 掉 ， 
} 该 方法 把 filterRow 
err i 、 
public ReturnCode filterKeyValue (KeyValue v) { < | 市 尔 变 量 设置 为 true 
if (Bytes.toString(v.getQualifier()) .equals (Bytes.toString (UsersDAaO. 
PASS COL))) { 
if(v.getVvalueLength() >= len) 在 返回 给 客户 端的 数 
this.filterRow = true; 据 集 里 排除 密码 列 
return ReturnCode.sKIP; 


} 


return ReturnCode.INCLUDE; 


} 


public boolean filterRow() { 


return this.filterRow; 
} 在 过 滤器 被 应 用 到 给 定 
行 后 , 重 置 过 滤 需 的 状态 


告知 该 行 是 否 
要 被 过 滤 掉 
< 一 一 





public void reset() { 
this.filterRow = false; 


} 


// Other methods that need implementation. See source code. 

为 了 安 六 定制 过 滤 右 ， 必 须 先 把 它们 编译 为 JAR 包 ， 然 后 放 入 
HBase 的 类 路 径 ， 以 便 在 RegionServer 启 动 时 加 载 它 们 。 对 于 一 个 运行 
中 的 系统 ， 不 得 不 重 局 集群 。 你 刚 编 写 的 定制 过 滤器 在 GitHub 项 目 里 
可 以 得 到 ， 在 HBaseIA.TwitBase.filters 包 里 ， 名 字 是 
PasswordStrengthFilter。 为 了 编译 该 JAR， 在 项 目的 顶级 目录 下 ， 执 行 
下 面 命令 : 

mvn install 


cp target/twitbase-1.0.0.jar /my/folder/ 
现在 ， 编 辑 $HBASE_HOME/conf 目录 下 的 hbase-env.sh 文件 ， 把 


创建 的 JAR 的 路 径 放 进 类 路 径 变量 里 。 
export HBASE CLASSPATH=/my/folder/twitbase-1.0.0.jar 
重启 HBase 进 程 。 


这 个 过 滤器 可 以 在 一 次 扫描 里 使 用 ， 如 下 所 示 : 


HTable t = new HTable (UsersDAO.TABLE NAME) ; 

Scan Scan = new Scan () ; 

scan.addColumn (UsezSDAO .INEO_FAM，UserSDRAO .PASS_COL ) ; 
scan.addColumn (UsersDAO.INFO FAM, UsersDAO.NAME COL ) ; 
scan.addColumn (UsersDAO.INFO FAM, UsersDAO.EMAIL COL), 
Filter f = new PasswordStrengthFilter(4),; 
scan.setFilter (£f); 


这 种 用 法 会 过 滤 掉 所 有 密码 长 度 大 于 等 于 4 个 字符 的 行 ， 返 回 密码 
不 符合 最 小 长 度 要 求 的 用 户 的 名 字 和 电子 邮件 。 因 为 密码 字段 的 
KeyValue 对 象 在 过 滤器 里 被 排除 了 ， 它 不 会 被 返回 。 

这 段 代码 在 同一 项 目的 PasswordStrengthFilterExample 类 里 可 以 得 
到 。 为 了 运行 这 段 代 码 ， 要 执行 下 面 的 命令 : 
java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.filters.PasswordSstrengthrFilterExample 


4.8.2 预 装 过 小 


HBase 随 机 预 装 了 很 多 过 滤器 ， 所 以 你 可 能 不 用 目 己 去 实现 。 为 了 
获取 预 闭 过 滤 融 的 完整 列表 ， 我 们 建议 你 看 看 javadocs。 这 里 我 们 介绍 
一 些 较为 常用 的 过 滤器 。 

1. 行 过 滤 需 

行 过 滤器 〈RowFilter) 是 一 种 预 效 的 比较 过 滤器 ， 文 持 基 于 行 键 过 
滤 数 据 。 你 可 以 执行 精确 匹配 、 子 字符 串 匹 配 或 正则 表达 陈 匹 配 ， 过 滤 
掉 不 匹配 的 数据 。 为 了 实例 化 RowFilter， 需 要 提供 比较 操作 符 和 和 希望 
比较 的 值 。 其 构造 函数 如 下 所 示 : 


public RowFilter (CompareOp rowCompareOp, 
WritableByteArrayComparable rowComparator) 


比较 操作 符 在 CompareOp 里 指定 ， 这 是 一 个 在 CompareFilter 抽 象 类 
里 定义 的 enum 类 型 ， 可 以 选择 下 面 的 值 。 

加 LESS 一 一 检查 是 否 小 于 比较 器 里 的 值 。 

四 LESS_OR_EQUAL 一 一 检查 是 否 小 于 或 等 于 比较 器 里 的 值 。 

四 EQUAL 一 一 检查 是 否 等 于 比较 器 里 的 值 。 




















检查 是 否 不 等 于 比较 右 里 的 值 。 
检查 是 否 大 于 或 等 于 比较 器 里 的 


NOT_ EQUAL 
GREATER OR_ EQUAL 











值 。 

四 GREATER 一 一 检查 是 否 大 于 比较 器 里 的 值 。 

四 NO_OP 一 一 默认 返回 false， 因 此 过 滤 掉 所 有 东西 。 

比较 器 需要 扩展 WritableByteArrayComparable 抽 象 类 。 可 用 的 预 装 
比较 器 类 型 有 以 下 几 种 。 


BinaryComparator 











使 用 Bytes.compareTo0) 方 法 比较 。 
使 用 Bytes.compareTo() 方 法 ， 从 左 开 





@ BinaryPrefixComparator 
始 执 行 基于 前 级 的 字 忆 级 比较 。 
检查 给 定 值 是 否 为 空 。 
执行 按 位 比较 。 
把 传递 的 值 与 比较 右 实 例 化 时 提供 的 











四 NullComparator 





国 BitComparator 





国 Regex9tringComparator 
正则 表达 式 比 较 。 

国 SubstringComparator 
包含 比较 器 提供 的 子 字符 串 。 


下 面 是 如 何 使 用 行 过 滤器 的 一 些 例子 : 
使 用 正则 表达 式 比较 行 键 


Filter myFilter = new RowFilIter (CompareFilter.CompareOp.EQURL， 4 





执行 contains0 方 法 ， 检 查 传递 的 值 是 否 





检查 行 键 是 
否 包含 给 定 
的 子 字符 串 


new RegexStringComparator(".*foo")); 


Filter myFilter = new RowFilter (CompareFilter.CompareOp.EQUAL, 
new SubstringComparator ("foo")); 


Filter myFilter = new RowFilter (CompareFilter.CompareOp.GREATER OR EQUAL, 4 


new BinaryComparator ("row10")); 
检查 行 键 是 否 大 于 提供 的 值 
2. 前 级 过 小 絮 
这 是 RowFilter 的 一 种 特例 。 它 基于 行 键 的 前 级 值 进行 过 小 。 它 相当 
于 给 扫描 构造 函数 Scan(byte[] startRow, byte[] stopRow) 提 供 了 一 个 停止 
键 ， 只 是 你 不 需要 上 自己 计算 停止 键 〈stopRow) 。 如 果 考 虑 到 字 节 数组 
的 游 出 问题 ， 有 时 正确 计算 停止 键 还 是 有 些 复杂 的 ， 所 以 这 个 过 滤器 是 








有 价值 的 。 前 级 过 滤器 (PrefixFilter) 还 没有 智能 到 能 直接 跳 到 第 一 个 
匹配 的 起 始 键 〈startRow) ， 上 所 以 务必 提供 起 始 键 。 但 它 计 算 停止 键 时 
足够 智能 ， 一 旦 发 现 不 匹配 前 级 的 第 一 个 行 键 就 会 停止 扫描 。 

使 用 前 级 过 滤器 ， 如 下 所 示 : 





| 只 返回 以 字母 a 开头 的 行 
string prefix = "a"; 

Scan Scan = new Scan(prefix.getBytes()); 

scan.setFilter(new PrefixFilter (prefix.getBytes())); 


3. 限定 符 过 滤器 

限定 符 过 滤器 (QualifierFilter〉 是 一 种 类 似 于 行 过 滤器 
(RowFilter〉 的 比较 过 滤器 ， 不 同 之 处 是 它 用 来 匹配 列 限 定 符 而 不 是 行 
键 。 它 使 用 与 行 过 滤器 相同 的 比较 运算 符 和 比较 器 类 型 。 还 有 一 个 匹配 
列 族 名 的 过 滤器 ， 但 它 不 像 限定 符 过 滤器 这 么 有 趣 。 而 且 ， 你 可 以 把 
scan 或 get 运 算 限 制 到 特定 列 族 。 

使 用 限定 符 过 滤器 ， 如 下 所 示 : 








返回 列 限 定 符 小 于 等 于 colqual20 
的 KeyValue 对 象 


Filter myFilter = new QualifierFilter (CompareFilter.CompareOp.DLESS_OR_EQURALD ' 蕊 
new BinaryComparator (Bytes .toBytes ("colqual20"))); 


与 Scan 类 似 ， 你 可 以 在 Get 对 象 上 应 用 任何 过 滤器 ， 但 是 不 是 所 有 
过 滤器 都 是 合理 的 。 

例如 ， 基 于 行 键 过 滤 Get 是 没有 意义 的 。 但 是 ， 你 可 以 在 Get 里 使 用 
限定 符 过 滤器 过 滤 出 需要 返回 的 列 。 

4， 值 过 滤器 

值 过 涯 器 〈ValueFilter) 提供 了 与 行 过 滤器 或 限定 符 过 滤器 一 样 的 
功能 ， 只 是 针对 的 是 单元 值 。 使 用 这 个 过 滤 右 可 以 过 小 掉 不 符合 设 定 标 
准 的 所 有 单元 : 














过 滤 掉 单元 值 不 是 以 foo 开 
头 的 列 
Filter myFilter = new ValueFilter (CompareFilter.Compareop .EQURAL， < 一 一 
new BinaryPrefixComparator (Bytes .toBytes ("foo"))); 


5. 时 间 惟 过 小 如 

时 间 惟 过 滤器 〈TimestampsFilter) 允许 针对 返回 给 客户 端的 时 间 版 
本 进行 更 细 粒 度 的 控制 。 你 可 以 提供 一 个 应 该 返回 的 时 间 惟 的 列表 ， 只 
有 与 时 间 戳 匹配 的 单元 才 可 以 返回 。 

当做 多 行 扫描 或 者 单行 检索 时 ， 如 果 你 需要 一 个 时 间 区 间 ， 可 以 在 
Get 或 Scan 对 象 上 使 用 setTimeRange(..) 方 法 来 实现 这 一 点 。 另 一 方面 ， 
这 种 过 滤器 可 以 让 你 指定 应 该 匹配 的 时 间 惟 列表 : 


List<Long> timestamps = new ArrayList<Long>(); | 








只 返回 时 间 惟 为 100、200 


timestamps.add (100L); 
和 300 的 单元 


timestamps.add (200L); 
timestamps .add (300L); 
Filter myFilter = new TimestampsFilter (timestamps); 


6. 过 滤器 列表 

组 合 使 用 多 个 过 滤器 经 常 是 很 有 用 的 。 假 设 你 想得到 匹配 某 个 正则 
表达 式 的 所 有 行 ， 但 是 你 只 对 包含 特定 单词 的 单元 感 兴趣 。 这 种 情况 
下 ， 你 可 以 使 用 FilterList( 过 滤器 列表 ) 对 象 组 合 多 个 过 滤器 ， 然 后 传 
递 给 扫描 器 。FilterList 类 也 实现 了 Filter 接 口 ， 它 可 以 用 来 创建 组 合 多 个 
过 滤器 的 过 滤 逻 辑 。 

你 可 以 用 两 种 模式 配置 过 滤器 列表 ， 即 MUST_PASS_ALL 或 
MUST_ PASS_ONE。 顾 名 思 义 ， 这 两 种 模式 分 别 意 味 着 : 成 功 通过 所 
有 过 滤器 则 出 现在 最 终结 果 列 表 里 ， 或 者 只 要 成 功 通 过 一 个 过 滤器 则 出 
现在 最 终结 果 列 表 里 。 


创建 过 滤器 列表 
List<Filter> myList = new ArrayList<Filter>(); = 
myList.add (myTimestampFilter); 实例 化 过 滤器 列 
myList.add (myRowFilter),; 表 ， 并 配置 模式 


FilterList myFilterList = 
new FilterList (FilterList.Operator.MUST PASS ALL, myList); 


myFilterList.addFilter (myQualirFilter); 
| 
句 添 加 到 过 滤器 列表 里 
这 些 过 小 器 按照 List 对 象 给 出 它们 的 顺 友 执行。 所以， 基于 使 用 的 


列表 对 象 的 类 型 或 者 用 特定 顺序 把 过 滤器 插入 列表 ， 你 可 以 进行 更 精密 


的 控制 。 

FilteringAPI 是 很 强大 的 ， 它 提供 了 一 些 特性 ， 文 持 你 优化 硬盘 寻 道 
时 间 。 这 不 仅 节省 网 络 IO 而 且 节省 硬盘 IO。 如 果 想 了 解 这 个 特性 的 用 
法 ， 参 见 ColumnPrefixFilter， 这 也 是 HBase 的 一 个 随机 预 装 的 过 滤器 。 


4.9 小 结 





本 章 讨 论 了 很 多 内 容 ， 我 们 很 高 兴 你 学 完了 ， 和 希望 你 一 路 上 学 到 了 
一 些 东 西 。HBase 在 很 多 方面 提供 了 数据 管理 的 一 种 新 方式 。 无 论 在 系 
统 的 功能 方面 还 是 在 使 用 系统 的 最 佳 实践 方面 都 是 如 此 。 运 气 好 的 话 ， 
你 的 视野 已 经 在 本 章 被 拓宽 了 ， 你 知道 了 在 设计 HBase 表 时 需要 考 碟 的 
因 系 ， 以 及 在 你 决定 是 否 使 用 关系 型 系统 时 需要 作出 的 权衡 。 我 们 总 结 
一 下 本 章 的 要 扩 。 

模式 设计 的 出 发 点 是 问题 ， 而 不 是 关系 。 在 为 HBase 做 设计 时 ， 需 
要 思考 的 是 如 何 为 一 个 问题 有 效 地 找到 答案 ， 而 不 是 这 个 实体 模型 是 合 
纯正 。 因 为 分 布 式 事务 妨碍 了 并 发 处 理 能 力 并 且 分 布 式 联结 受到 网 络 IO 
的 限制 ， 你 必须 做 出 取舍 。 在 4.1.1 市 里 我 们 从 不 会 问 :“ 为 了 高 效 存储 
数据 应 该 如 何 建 模 ? 相反， 我们 专注 于 有 效 回答 奋 询 问题 。 

模式 设计 水 远 不 会 结束 。 你 必须 先 在 纸 上 设 计 一些 东 西 ， 然 后 放 到 
一 些 场景 下 运行 ， 看 看 什么 地 方 会 出 问题 。 让 你 的 模式 逐步 完善 。 反 规 
范 化 处 理 的 办 法 既是 强大 的 朋友 也 是 可 怕 的 政 人 。 在 读 啊 应 时 间 和 写 复 
杂 性 之 间 总 有 取舍 。 先 使 用 一 种 假定 的 设计 回答 尽 可 能 多 的 问题 ， 然 后 
再 调整 它 来 支持 读 写 两 种 新 访问 模式 。 你 的 用 户 会 感谢 你 的 。 

数据 规模 是 第 一 本 质 性 的 因 系 。 当 在 HBase 或 其 他 分 布 式 系统 上 做 
构建 时 ， 合 理 分 布 工作 负载 总 是 一 个 需要 解决 的 问题 。 设 计 这 些 系统 是 
用 来 处 理 散 布 在 整个 集群 上 的 巨大 流量 的 。 在 集群 中 单一 成 员 上 的 流量 
聚集 (或 称 为 热点 ) 是 灾难 。 因 此 ， 你 必须 在 脑海 里 一 直 记 住 要 均衡 分 























布 负 载 。HBase 有 能 力 把 均衡 分 布 负 载 设 计 到 模式 里 。 请 明智 地 运用 这 
种 能 

每 个 维度 都 是 一 个 提升 性 能 的 机 会 。HBase 在 物理 数据 模型 的 多 个 
维度 上 有 多 种 索引 。 每 个 索引 直接 摆 在 你 面前 。 这 和 古 便 于 控制 的 ， 但 更 
是 一 个 挑战 。 如 果 你 没 弄 明白 如 何 让 系统 性 能 表现 最 好 ， 先 退回 去 ， 看 
看 是 否 有 某 一 个 索引 你 还 没有 用 好 。 掌 握 HBase 的 内 部 工作 机 制 之 所 以 
重要 ， 很 大 一 部 分 原因 惑 是 领会 这 些 提升 性 能 的 机 会 。 

记 住 ， 设 计 行 键 是 你 能 做 的 唯一 最 重要 的 决定 。 请 充分 利用 数据 逻 
辑 模型 的 灵活 性 。 扫 描 操 作 〈Scan) 是 你 的 朋友 ， 但 是 你 需要 明智 地 使 
用 它们 ， 以 正确 的 访问 模式 使 用 它们 。 并 且 记 住 ， 所 有 其 他 办 法 都 失败 
的 时 候 ， 你 总 是 能 求助 于 定制 过 滤 占 。 

现在 你 掌握 了 在 设计 HBase 表 时 需要 的 技巧 ， 接 下 来 的 两 章 会 讨论 
扩展 HBase， 来 增加 一 些 你 在 应 用 系统 里 可 能 需要 的 有 趣 的 功能 。 第 7 章 
和 第 8 章 将 致力 于 研究 如 何 使 用 HBase 解 决 真实 世界 里 的 问题 ， 你 将 学 着 
练习 使 用 本 章 讨 论 的 一 些 技术 。 























第 5 章 办 处 理 器 扩展 HBase 


本 章 涵 善 的 内 容 

是 协 处 理 器 以 及 如 何 有 效 使 用 协 处 理 器 

量 协 处 理 器 的 类 型 : observer 和 endpoint 

加 如 何在 你 的 集群 中 配置 以 及 验证 协 处 理 器 的 安装 

HBase 作 为 一 个 在 线 系统 ， 你 看 到 的 关于 它 的 一 切 都 聚焦 在 数据 访 
问 上 。 在 第 2 章 介 绍 的 5 个 命令 专门 用 于 读 写 数据 。 对 于 HBase 集 群 ， 最 
消耗 计算 资源 的 操作 发 生 在 使 用 服务 器 端 过 滤器 扫描 (Scan) 结果 的 时 
候 。 即 便 如 此 ， 这 种 计算 还 是 专门 针对 数据 访问 的 。 你 可 以 使 用 定制 过 
滤器 把 应 用 逻辑 推 到 集群 上 ， 但 是 过 滤器 被 局 限 在 单行 的 内 容 上 。 为 了 
在 HBase 里 执行 数据 上 的 计算 ， 你 被 迫 依 靠 Hadoop MapReduce 或 者 依靠 
客户 问 代 码 来 读 取 、 修 改 和 写 回 数据 到 HBase。 

HBase 协 处 理 器 作为 HBase 0.92.0 版 本 的 一 个 特性 增加 引入 到 数据 
操作 工具 集 里 。 随 着 协 处 理 器 的 引入 ， 我 们 可 以 把 任意 计算 逻辑 

Carbitrary computation〉 推 到 托管 数据 的 HBase 节 点 上 。 这 种 代码 跨 所 

有 RegionServer 并 行 运行 。 这 个 特性 把 HBase 集 群 从 水 平 扩展 存储 系统 转 
变 为 高 效 的 、 分 布 式 的 数据 存储 和 数据 处 理 系统 。 

警告 协 处 理 器 是 HBase 的 一 个 全 新 特性 ， 还 没有 在 生产 部 署 中 测试 
过 。 它 们 和 HBase 内 部 机 制 的 整合 是 非常 侵略 性 的 。 可 以 把 它们 等 同 看 
做 Linux 内 核 模块 或 者 关系 型 数据 库 里 用 C 实 现 的 存储 过 程 。 编 写 一 个 正 
确 无 误 的 observer 协 处 理 器 是 很 复杂 的 ， 并 且 这 样 的 协 处 理 器 在 大 规模 
运行 时 非常 难于 调试 。 这 不 像 客户 端的 错误 ， 一 个 出 错 的 协 处 理 器 会 让 
你 的 集群 宕 机 。HBase 社 区 仍然 在 寻找 如 何 有 效 使 用 协 处 理 器 的 方法 。 
[8] 建议 谨慎 使 用 。 








本 章 中， 我 们 将 介绍 协 处 理 占 的 两 种 类 型 ， 并 且 展 示 每 种 协 处 理 器 
如 何 使 用 的 例子 。 我 们 希望 这 能 开阔 你 的 思路 ， 以 便 你 在 自己 的 应 用 系 
统 里 可 以 用 到 协 处 理 器 。 天 知道 : 也 许 将 来 发 表 博 客 帖子 来 介绍 权威 的 
协 处 理 器 例子 的 那个 人 就 是 你 ! 请 让 你 的 例子 比 单 词 计 数 
(WordCount) 例子 更 有 趣 一 些 吧 。 

更 多 来 自 Google 的 灵感 

和 Hadoop 生 态 系 统 的 其 他 大 部 分 产品 一 样 ， 协 处 理 器 也 是 因为 
Google 而 在 开源 社区 中 出 现 。HBase 协 处 理 器 的 思路 来 源 于 2009 年 一 次 
对 话 中 展示 的 2 张 幻 灯 片 。 OE 低 延 迟 的 运算 ， 协 处 
理 占 作为 关键 因素 被 引用 到 。 这 些 运算 包括 机 器 翻译 、 全 文 检 索 和 可 扩 
展 的 元 数据 管理 。 


5.1 办 人 处理 右 


协 处 理 器 有 两 种 : observer 和 endpoint。 每 一 种 协 处 理 器 服务 于 不 
同 的 目标 ， 并 且 按 照 自己 的 API 来 实现 。observer 人 允许 集 群 在 正常 的 客户 
端 操作 过 程 中 可 以 有 不 同 的 行为 表现 。endpoint 人 允许 你 扩展 集群 的 能 
力 ， 对 客户 端 应 用 开放 新 的 运算 命令 。 


5.1.1 observer 协 处 理 器 


为 了 理解 observer 协 处 理 器 ， 先 来 了 解 一 个 请 求 的 生命 周期 是 有 帮 
助 的。 一 个 请 求 从 客户 端 开 始 ， 创 建 一 个 请 求 对 象 ， 在 HIableInterface 
实现 上 调用 合适 的 方法 。 例 如 ， 创 建 一 个 Put 实 例 ， 调 用 put() 方 法 。 
HBase 客 户 端 基于 行 键 定 位 到 应 该 接收 该 Put 的 RegionServer， 人 发 起 RPC 
调用 。RegionServer 收 到 Put， 把 它 转交 给 合适 的 region。 该 region 处 理 这 
一 请 求 ， 然 后 构造 一 个 返回 给 客户 端的 回应 。 这 个 过 程 如 图 5-1 所 示 。 

observer 位 于 客户 端 和 HBase 之 间 ， 在 这 个 过 程 发 生 时 修改 数据 访 














问 。 你 可 以 在 每 个 Get 命令 后 运行 一 个 observer， 修 改 返回 给 客户 端的 
结果 。 或 者 你 可 以 在 一 个 Put 命 令 后 运行 一 个 observer， 在 客户 端 写 入 
HBase 的 数据 存 入 硬盘 之 前 执行 操作 。 你 可 以 把 observer 协 处 理 器 想象 
成 关系 型 数据 库 里 的 触发 器 (trigger) 或 者 面向 方面 编程 〈aspect- 
oriented programming) 里 的 建议 (advice) 。 多 个 observer 可 以 同时 被 
登记 ， 它 们 按照 优先 级 次 序 执行 。CoprocessorHost 类 代表 region 管 理 
observer 的 登记 和 执行 。 一 个 RegionServer 拦 截 一 个 Put 命 令 的 过 程 如 图 5- 
2 所 示 。 








RegionServer 


1 客户 端 发 出 Put 请 求 。 
2 该 请 求 被 分 派 到 合适 的 RegionServer 和 region. 
3 该 region 接 收 到 put () ， 进 行 处 理 ， 并 构造 一 个 返回 响应 。 
4 最 终结 果 返 回 给 客户 端 
图 5-1 一 个 请 求 的 生命 周期 。 客 户 端 发 出 的 Put 请 求 补 分派 ， 直 接 导 


致 在 某 个 region 上 调用 put() 





RegionServer 
region © 


CoprocessorHost 


1 客户 端 发 出 Put 请 求 。 

2 该 请 求 被 分 派 给 合适 的 RegionServer 和 region. 

3 CoprocessorHost 拦 截 该 请 求 ， 然 后 在 该 表 上 登记 的 每 个 RegionObserver 上 调用 prePut () 。 

4 如 果 没 有 被 prePut () 拦截 ， 该 请 求 继 续 送 到 region， 然 后 进行 正常 处 理 ， 

5 region 产 生 的 结果 再 次 被 CoprocessorHost 拦 截 。 这 次 在 每 个 登记 的 RegionObserver 上 调用 postpPut () 。 
6 假如 没有 postPut () 拦截 该 响应 ， 最 终结 果 被 返回 给 客户 端 。 


图 5-2 自然 情况 下 的 RegionObserver。region 不 是 直接 调用 put()， 而 
是 一 个 接 一 个 地 调用 所 有 登记 的 RegionObserver 上 的 prePut() 和 
postPutO0。 每 次 调用 都 有 机 会 在 把 啊 应 返回 给 客户 端 之 前 修改 或 者 中 断 








请 记 住 ， 协 处 理 器 运行 在 和 RegionServer 相 同 的 进程 空间 里 。 这 意 
味 着 协 处 理 器 的 代码 拥有 服务 器 上 HBase 用 户 进程 的 全 部 权限 ， 也 意味 
着 出 错 的 协 处 理 器 有 潜在 可 能 使 进程 朋 涡 。 此 时 此 刻 并 没有 隔离 保证 。 
你 可 以 通过 跟踪 JIRA 单 子 来 关注 解决 这 个 潜在 问题 的 工作 。 

从 HBase 0.92 版 本 开始 ， 有 以 下 3 种 observer 可 用 。 
这 种 observer 钧 在 数据 访问 和 操作 阶段 。 所 有 





RegionObserver 


标准 的 数据 操作 命令 都 可 以 被 pre-hooks 和 post-hooks 拦 截 。 它 也 对 region 
内 部 操作 开放 pre-hooks 和 post-hooks， 例 如 ， 刷 写 MemStore 和 拆 分 
region。 RegionObserver 运 行 在 region 上 ， 因 此 同一 个 RegionServer 上 可 以 
运行 多 个 RegionObserver。 可 以 通过 模式 更 新 或 者 配置 
hbase.coprocessor.region.classes 属 性 来 登记 RegionObserver。 

加 WALObserver 一 一 预 写 日 志 (write-ahead log) 也 支持 observer 协 
处 理 器 。 唯 一 可 用 的 钩子 是 pre-WAL 和 post-WAL 写 事件 。 和 
RegionObserver 不 同 ， WALObserver 运行 在 RegionServer 的 环境 | 
可 以 通过 模式 更 新 或 者 配置 hbase.coprocessor.wal.classes 属 性 来 登 i 
WALObserver。 

加 MasterObserver 一 一 为 了 钧 住 DDL 事件 ， 如 表 创 建 或 模式 修改 ， 
HBase 提供 了 MasterObserver。 例 如 ， 当 主 表 被 删除 时 你 可 以 使 用 
人 除 辅 助 索 引 。 这 种 observer 运行 在 Master 市 
点 上 。 可 以 通过 配置 hbase.coprocessor.master.classes 属 性 登记 


MasterObserver。 








5.1.2 endpoint 协 处 理 器 


endpoint 是 HBase 的 一 种 通用 扩展 。 当 endpoint 安 装 在 集群 上 时 ， 它 
扩展 了 HBase RPC 协 议 ， 对 客户 问 应 用 开放 了 新 方法 。 束 像 observer 一 
样 ，endpoint 在 RegionServer 上 执行 ， 紧 挨 着 你 的 数据 。 

endpoint 协 处 理 器 类 似 于 其 他 数据 库 引 擎 中 的 存储 过 程 。 从 客户 站 
看 ， 调 用 一 个 endpoint 协 处 理 器 类 似 于 调用 其 他 HBase 命 令 ， 只 是 其 功能 
建立 在 定义 协 处 理 器 的 定制 代码 上 。 通 常 先 创建 请 求 对 象 ， 然 后 把 它 传 
给 HtableInterface 在 集群 上 执行 ， 最 后 收集 结果 。 可 以 按照 你 编写 的 任 
意 Java 代 码 做 任何 事情 。 

最 基本 的 是 ，endpoint 可 以 用 来 实现 分 散 聚 合算 法 (scatter-gather 
algorithm ) 。HBase 随 机 附 帝 了 一 个 聚合 示例 : 实现 求 和 和 求 平均 数 这 


样 的 简单 聚合 计算 的 一 个 endpoint。AggregateImplementation 实例 在 托 
管 数据 的 节点 上 计算 得 到 部 分 结果 ， 然 后 AggregationClient 在 客户 端 进 
程 里 计算 得 到 最 终结 果 。 一 个 实际 使 用 的 聚合 计算 的 例子 如 图 5-3 所 

示 。 


RegionServerl 
客户 端 应 用 
Regionl 


HTableInterface 
.CoprocessorExec!() 


Aggregate results 


图 5-3 一 个 实际 使 用 的 endpoint 协 处 理 器 。 所 有 region 部 署 了 客户 端 
使 用 的 接口 的 一 个 实现 。Batch.Call 的 实例 封装 方法 调用 ， 
coprocessorExec() 方 法 处 理 分 布 式 调用 。 在 每 个 请 求 完成 以 后 ， 结 果 被 
返回 给 客户 端 ， 进 行 聚合 处 理 
我 们 将 展示 给 你 如 何 实现 这 两 种 协 处 理 右 ， 以 及 演示 在 HBase 安 装 
中 如 何 让 这 两 种 实现 生效 。 


| 
< 








5.2 实现 一 个 observer 


你 可 以 使 用 协 处 理 器 作为 TwitBase 的 一 个 部 分 。 回 忆 一 下 在 上 一 
章 创建 的 follows 关系 表 。 我 们 不 再 手工 维护 followedBy 表 里 的 辅助 索 








引 ， 而 是 编写 一 个 observer 来 维护 这 种 关系 。 
5.2.1 修改 模式 
为 了 完成 这 个 目标 ， 你 可 以 实现 一 个 RegionObserver， 并 日 和 履 六 它 
的 postPut(0 方 法 。 在 postPutO 里 ， 唯 一 有 关 的 内 容 是 客户 端 发 送 的 Put 实 
例 。 这 意味 着 你 需要 对 上 一 章 定义 的 follows 和 followedBy 模式 稍 加 修 
改 。 为 什么 呢 ? 先 让 我 们 研究 一 下 follows 和 followedBy 表 的 实体 图 ， 如 
图 5-4 所 示 。 





follows 表 


行 键 : 列 限定 符 : 被 关注 用 户 ID 
TTT 


单元 值 : 被 关注 用 户 名 












followedBy 表 


行 键 : 列 限定 符 : 粉丝 用 户 ID 
md5(followed)md5(follower) | 


单元 值 : 粉丝 用 户 名 
图 5-4 优化 了 存储 空间 和 IO 效率 的 follows 和 followedBy 表 的 模式 。 
follows 表 存储 了 根据 关注 关系 建立 索引 的 一 半 关 系 实体 ，followedBy 表 















存储 了 根据 被 关注 关系 建立 索引 的 另 一 半 关 系 实体 

使 用 者 自 慎 

本 例 展示 给 你 如 何 使 用 协 处 理 器 维护 辅助 索引 。 实 战 中 ， 考 虑 到 吞 
吐 量 因素 我 们 不 建议 使 用 这 种 方式 。 更 新 辅助 索引 可 能 需要 和 托管 在 不 
同 RegionServer 上 的 region 通 信 ， 这 种 通信 会 产生 额外 的 网 络 压 力 ， 会 影 
啊 集 群 性 能 。 

也 就 是 说 ， 如 果 你 的 应 用 系统 不 需要 最 大 化 否 吐 量 ， 这 种 做 法 是 一 
种 和 印 下 索引 维护 工作 的 简单 、 聪 明 的 办 法 。 在 本 例 这 样 的 情况 下 ， 你 可 
以 通过 异步 处 理 postPut 操作 ， 把 它 从 关键 的 写 过 程 中 移 开 的 处 理 办 法 
来 减少 客户 器 延迟 。 然 后 你 可 以 使 用 MapReduce 作 业 来 周期 性 地 重建 索 
引 ， 捕 获 被 忽视 的 记录 。 

往 follows 表 里 写 入 新 纪录 需要 单元 {id_followed:name followed}。 
这 是 observer 可 以 得 到 的 包含 在 Put 实 例 里 的 唯一 信息 。 而 往 followedBy 
表 里 写 入 新 纪录 则 需要 单元 {id_follower:name_follower}。observer 得 不 
到 关系 的 这 个 部 分 。 为 了 实现 这 个 observer， 写 数据 到 follows 表 的 单个 
Put 实例 必须 包含 完整 的 关系 信息 。 

因为 号 入 follows 表 的 Put 现 在 必须 包含 完整 的 关系 实体 ， 你 可 以 把 
同样 的 关系 实体 存储 到 followedBy 表 里 。 这 样 两 张 表 的 每 一 行 都 存储 
了 一 个 完整 的 关系 实体 。 更 新 后 的 实体 图 如 图 5-5 所 示 。 




















follows 表 
四 站 to_name: from: from_name: 
Wo: 被 关注 用 户 ID | 波 关 注 用 上 丝 用 户 ID | 粉丝 用 户 名 








行 键 : 
md5(follower)md5(followed) 
行 键 










Column family:f 
. br EH _name: from: from_name: 
to: 被 关注 用 户 ID | 被 关注 用 户 名 粉丝 用 户 ID 屿 丝 用 户 


图 5-5 更 新 后 的 follows 和 followedBy 表 的 模式 。 现 在 两 张 表 的 每 一 
行 都 存储 了 一 个 完整 的 关系 实体 
在 Put 里 可 以 得 到 全 部 关系 信息 ， 你 可 以 着 手 实 现 这 个 observer。 


5.2.2 从 HBase 开 始 


你 可 以 实现 自己 的 FollowsObserver 来 维护 这 些 关 系 。 这 样 做 需要 


扩展 BaseRegionObserver 类 和 禾 亲 postPut() 方 法 : 
public class FollowsObserver extends BaseRegionObserver { 






















@Override 

public void PostPut ( 
final ObserverContext<RegionCoprocessorEnvironment> e， 
final Put put, 
final WALEdit edit, 
final boolean writeToWwWAL) 

throws IOException { 
// implementation 


这 个 FollowsObserver 跟 踪 follows 表 上 的 Put， 等 待 新 的 关注 关系 条 
目 出 现 。 当 发 现 新 条 目 时 ， 它 会 构建 这 个 关系 的 倒序 并 写 回 到 
followedBy 表 里 。 第 一 步 是 检测 Put 请 求 的 内 容 是 否 正 确 。 如 下 所 示 ， 





检查 进来 的 Put 请 求 里 使 用 的 列 族 名 : 
It (!put .getFamilyMap() .containsKey ("follows")) 
return; 


为 通过 HBase 的 配置 文件 hbase-site.xml 安装 的 协 处 理 器 被 应 用 
到 所 有 的 表 上 ， 所 以 这 种 检查 是 必需 的 。 为 了 你 的 目标 ， 你 只 需要 在 
follows 表 上 操作 。 下 面 的 检查 确认 你 不 是 在 其 他 表 上 操作 。 通 过 检查 
RegionCoprocessorEnvironment 对 象 ， 找 出 observer 正 在 哪 张 表 上 执行 。 
该 对 象 保 存 了 到 HRegion 的 引用 和 有 关 的 HregionInfo: 


byte [] table 

= e.getEnvironment () .getRegion() .getRegionInfto () .getTableName () ; 
if (!Bytes.edqduals (table，Bytes .toBytes ("ftollows'") )) 

et 


尽早 、 尽 快 退 出 ! 

如 果 这 不 是 你 感 兴趣 的 Put， 务 必 马 上 返回 。 协 处 理 器 作为 数据 流 
的 一 部 分 在 执行 。 这 里 花费 的 时 间 就 是 客户 端 等 待 响应 的 时 间 。 

如 采 检 测 结果 满足 正确 的 条 件 ， 融 该 干 活 儿 了 。 第 二 步 是 从 进来 的 
Put 命令 里 取出 相关 组 成 部 分 。 你 将 使 用 这 些 组 成 部 分 作为 参数 来 创建 
倒序 关系 。 为 此 ， 进 入 Put 实 例 ， 使 用 Put.get(byte[] family, byte[] 
qualifier) 方 法 取出 需要 的 参数 。 该 方法 返回 匹配 请 求 参数 的 一 个 
KeyValue 列 表 。 因 为 Put 只 包含 单元 的 一 个 时 间 版 本 ， 所 以 你 知道 第 一 
个 KeyValue 是 你 感 兴 趣 的 : 








KeyValue kv = put.get (Bytes.toBytes('f'), Bytes.toBytes ("from")) .get (0), 
String from = Bytes.toSstring (kv.getValue()); 
kv = put .get (Bytes.toBytes('f'), Bytes.toBytes ("to")) .get (0); 


String to = Bytes.toSstring(kv.getVvalue()),; 


最 后 一 步 是 把 新 关系 写 回 到 HBase。 你 可 以 复 用 连接 信息 ， 在 和 初 
始 相 同 的 表 上 执行 操作 。 记 住 ， 新 行 很 可 能 托管 在 不 同 的 RegionServer 
上 ， 所 以 经 党 需要 跨 网 络 操作 : 


RelationsDAO relations = new RelationsDRAO (Pool) ; 倒序 关系 
relations.addFollowedBy (to, from); 


) < 一 一 
通常 你 不 要 像 这 里 这 样 把 客户 端 和 服务 器 代码 混合 在 一 起 。 在 这 里 





你 复 用 RelationsDAO 来 专注 于 增加 一 个 被 关注 关系 而 不 是 构造 一 个 
Put。 

看 起 来 好 似 递归 

本 例 中 ， 你 启动 了 一 个 新 HBase 客 户 端 并 访问 集群 一 一 从 集群 内 部 
访问 ! 也 就 是 说 ，follows 表 上 的 一 个 客户 端 Put 启 动 了 其 他 表 上 的 一 个 
客户 端 Put。 一 个 草率 实现 的 observer 可 能 在 其 他 表 上 启动 另外 一 个 客户 
端 Put， 等 等 。 这 样 的 代码 会 给 一 个 完全 无 率 的 HBase 集 群 市 来 大 抹 烦 。 
本 例 中 ， 通 过 检查 关系 的 方 同 核 实 了 基本 情况 。 你 在 实现 自己 的 
observer 时 请 留意 这 些 细节 。 

使 用 RelationsDAO 写 回 到 HBase 需 要 一 个 HIablePool 实 例 。 通 过 钧 
入 协 处 理 器 的 生命 周期 ， 你 可 以 使 用 一 个 实例 变量 来 管理 该 HTablePool 
实例 。start0 和 stop(0) 方 法 为 此 而 提供 ， 尽 管 它们 的 文档 很 少 : 





@Override 

public void start (CoprocessorEnvironment env) throws IOException { 
pool = new HTablePool (env.getConfiguration(), Integer.MAX VALUE) ; 

} 

@Override 


public void stop (CoprocessorEnvironment env) throws IOException { 
pool.close(); 


} 
完整 的 FollowsObserver 如 代码 清单 5-1 所 示 。 


代码 清单 5-1 FollowsObserver 


package HBaselIA.TwitBase.coprocessors; A 
省 略 导 人 

//- < 一 部 分 

public class FollowsObserver extends BaseRegionObserver { 


private HTablePool pool = null; 


@Override 

public void start (CoprocessorEnvironment env) throws IOException { 
pool = new HTablePool (env.getConfiguration(), Integer.MAX VALUE ) ; 

} 

@Override 


public void stop(CoprocessorEnvironment env) throws IOException { 
pool .close() ; 


} 


@Override 
public void PostPut ( 
final ObserverContext<RegionCoprocessorEnvironment> e， 
final Put put, 
final WALEdit edit, 
final boolean writeToWAL) 
throws IOException { 
byte [] table 
= e.getEnvironment () .getRegion() .getRegionInfo() .getTableName () ; 
if (!Bytes.equals(table，EOLLOWS_TRABLE NAME) ) 


return; 这 不 是 你 
KeyValue kv = put.get (RELATION FAM, FROM) .get (0); 寻找 的 表 


String from = Bytes .toString(kv.getValue()) ; 
kv = put.get (RELATION FAM, TO) .get (0); 
String to = Bytes .toString(kv.getValue () ) ; 


RelationsDAO relations = new RelationsDRAO (Pool) ; 
zelations.addqFollowedqBy(to，from) ; a 
倒序 关系 


5.2.3 安装 observer 


该 测试 一 下 FollowsObserver 了 。 安 装 observer 协 处 理 器 有 两 种 方 
法 : 变更 表 模 式 或 者 通过 hbase-site.xml 文 件 里 的 配置 项 。 和 配置 文件 安 
闭 方 法 不 同 ， 通 过 模式 变更 的 安装 方法 可 以 不 用 重启 HBase， 但 还 是 需 
要 让 表 临 时 下 线 。 

让 我 们 先 来 试 试 模式 变更 的 安装 方法 。 为 了 安装 FollowsObserver， 
你 需要 把 它 打包 到 JAR 文 件 。 按 照 之 前 的 同样 方式 处 理 如 下 : 





$ mvn package 
[INFO] --------- 


[INFO] -------- 


现在 打开 HBase Shell， 并 安装 observer: 


$ hbase shell 


HBase Shell; enter 'help<RETURN>' for list of supported commands. 
Type "exit<RETURN>" to leave the HBase Shell 
Version O09250% T1231986; Mon Jan 16 113246235 UTC 2012 


hbase (main) :001:0> disable 'follows' 
0 row(s) in 7.0560 seconds 


hbase (main) :002:0> alter 'follows', METHOD => 'table att', 
!'Coprocessor'=>'file:///Users/ndimiduk/repos/hbaseia- 
twitbase/target/twitbase-1.0.0.jar 
|HBaseIA.TwitBase.coprocessors.FollowsObserver|1001|' 
Updating all regions with the new schema... 

1/1 regions updated. 

Done. 

0 row(s) in 1.0770 seconds 


hbase (main) :003:0> enable 'follows' 
0 row(s) in 2.0760 seconds 


关闭 该 表 会 让 它 的 所 有 region 下 线 。 这 样 可 以 使 进程 的 类 路 径 
Cclasspath) 得 以 更 新 ， 这 是 安装 过 程 所 需要 的 。alter 命令 更 新 表 模 
式 ， 让 它 知 道 新 的 协 处 理 器 。 这 种 在 线 安装 方式 只 适用 于 observer 协 处 
理 妖 。coprocessor 属 性 参数 用 | 字符 分 隔 。 第 一 个 参数 是 包含 该 协 处 理 器 
实现 的 JAR 包 的 路 径 ， 第 二 个 参数 是 该 协 处 理 喜 实现 的 类 ， 第 三 个 参 
数 是 该 协 处 理 器 的 优先 级 。 当 你 加 载 多 个 协 处 理 器 时 ， 它 们 按照 优先 次 
序 执行 。 对 于 任何 给 定 的 调用 ， 前 面 的 协 处 理 器 有 机 会 中 断 执 行 链条 ， 
阻止 后 面 的 协 处 理 器 的 执行 。 最 后 的 参数 ， 本 例 中 被 省 略 挥 的 ， 是 传递 
给 该 协 处 理 器 实现 的 构造 函数 的 一 个 参数 列表 。 

如 果 一 切 正 常 ， 可 以 在 HBase Shell 中 描述 〈describe) 一 下 follows 
表 ， 确 认 出 现 了 新 协 处 理 器 : 








hbase (main) :004:0> describe 'follows'! 
DESCRIPTION ENABLED 
{NAME => 'follows', coprocessors$l1 => 'file:///U true 
sers/ndimiduk/repos/hbaseia-twitbase/target/twi 
tbase-1.0.0.jar|HBaseIA.TwitBase.coprocessors.F 
ollowsObserver|1001|', FAMILIES => [{NAME => 'f 
', BLOOMFILTER => 'NONE', REPLICATION SCOPE => 
10', VERSIONS => '1', COMPRESSION => 'NONE', MI 
N VERSIONS => '0', TTL => '2147483647', BLOCKSI 
ZE => '65536', IN MEMORY => 'false', BLOCKCACHE 
=> 'true'}]} 
1 row(s) in 0.0330 seconds 


下 一 次 当 你 往 follows 表 里 增加 新 记录 时 ，FollowsObserver 协 处 理 器 
会 起 作用 ， 为 你 更 新 倒序 索引 。 新 插入 一 个 关系 来 验证 一 下 : 


$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.RelationsTool follows TheRealMT SirDoyle 

Successfully added relationship 

$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.RelationsTool list follows TheRealMT 

<Relation: TheRealMT -> SirDoyle> 

$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.RelationsTool list followedBy SirDoyle 

<Relation: SirDoyle <- TheRealMT> 


吹 毛 求 疲 ! 

在 往 一 张 表 模 式 里 安装 协 处 理 器 时 ， 请 小 心 。 协 处 理 器 的 品质 直到 
运行 时 才能 得 到 验证 。HBase 不 会 发 现任 何 错误 ， 如 多 余 的 空格 或 者 无 
效 的 JAR 路 径 。 直 到 下 一 次 客户 端 操 作 而 observer 不 能 工作 时 你 才 会 知 
道 安 装 失败 。 我 们 建议 在 假定 一 切 就 绪 之 前 你 应 该 实际 测试 一 下 协 处 理 
器 的 部 署 。 

本 例 中 ， 你 是 从 本 地 文件 系统 上 的 路 径 安 装 协 处 理 器 JAR 包 的 。 如 
果 你 的 集群 使 用 像 Chef (www.opscode.comy/chef/) 或 者 
Puppet (http:/puppetlabs.com) 这 样 的 工具 来 管理 ， 这 种 安装 可 能 很 简 
单 。HBase 也 可 以 从 HDFS 加 载 JAR 包 。 实 践 中 ， 使 用 HDFS 部 署 模 式 




















比 复 制 应 用 JAR 包 到 每 个 节点 要 容易 得 多 。 


5.2.4 其 他 安装 选项 


observer 协 处 理 器 也 可 以 通过 配置 文件 方式 进行 安装 。 这 种 安装 方 
式 需 要 在 HBase 类 路 径 里 可 以 找到 observer 类 。 本 例 中 ，observer 在 所 有 
表 上 登记 ， 所 以 你 必须 小 心 ， 只 在 预期 环境 里 执行 拦截 操作 。 配 置 文件 
安装 方式 是 MasterObserver 协 处 理 器 登记 实例 的 主要 方式 。 

小 秘密 

当 你 在 HBase Shell 里 描述 一 张 表 时 ， 通 过 hbase-site.xml 文 件 登 记 的 
协 处 理 器 不 会 像 前 面 的 例子 那样 显示 出 来 。 验 证 这 种 observer 是 否 已 登 
记 的 唯一 办 法 是 使 用 它 ， 最 好 通过 某 种 自动 的 部 署 后 测试 操作 。 不 要 说 
我 们 没有 提醒 你 。 

如 果 你 需要 登记 两 个 MasterObserver 协 处 理 器 ， 你 可 以 通过 在 hbase- 
site.xml 文 件 里 添加 下 面 属性 来 实现 : 


propertys 
<name>hbase.coprocessor.master.classes</name> 
<value>foo.TableCreationObserver, foo.RegionMoverObserver</value> 
</property> 


这 上 段 配 置信 息 把 TableCreationObserver 类 登记 为 observer 最 高 优先 
级 ， 接 下 来 是 RegionMoverObserver。 








5.3 实现 一 个 endpoint 


跟踪 使 用 TwitBase 的 人 们 之 间 的 关系 ， 对 于 维持 他 们 的 社会 网 络 
是 很 重要 的 。 我 们 希望 人 们 之 间 这 种 数字 世界 的 连通 性 可 以 促进 真实 世 
界 里 人 们 之 闻 的 关系 。 但 实际 上 ， 跟 踩 这 些 关 系 的 最 适当 的 原因 可 能 是 
想 看 看 你 的 粉丝 是 否 比 其 他 人 更 多 。 比 如 ， 一 个 TwitBase 用 户 想 准确 
知道 他 现在 有 多 少 粉 丝 。 这 种 情况 下 ， 让 用 户 等 着 完成 一 次 MapReduce 
作业 是 不 能 接受 的 。 甚 至 在 一 次 标准 扫描 中 所 有 数据 在 网 络 上 传输 的 压 








力也 是 不 能 接受 的 。 你 将 使 用 endpoint 协 处 理 器 为 TwitBase 建 立 这 种 特 
性 。 
对 于 一 个 个 人 用 户 ， 你 可 以 使 用 扫描 来 实现 所 需 的 粉丝 计数 功能 。 
这 样 做 是 非常 简单 的 。 先 定义 扫描 范围 ， 然 后 对 结果 进行 计数 : 
final byte[] startKey = Md5Utils.md5sum(user); 构造 起 始 键 
final byte[] endKey = Arrays.copyOf (startKey, startKevy.length) ; 


endKey[lendKey.length-1]++; G4,,.... 和 结束 键 
Scan Scan = new Scanl(startKey, endKey); 


Scan .SetMaxVezrsions (1) ; 限制 返回 的 
lcng sum = 0 KeyValue 


ResultScanner rs = followed.getScanner (scan); 
for(Result r : rs) { 
SUum++; < 统计 结果 


} 

这 种 扫描 方式 工作 得 很 好 。 为 什么 你 要 让 这 件 事 情 变 得 更 复杂 呢 ? 
可 能 是 坚 秒 必 争 吧 。 这 种 扫描 可 能 是 你 使 用 应 用 系统 的 关键 途径 。 每 个 
返回 的 结果 (Result) 在 网 络 上 占用 数 个 字 节 一 一 即使 你 省 略 了 所 有 数 
据 ， 你 仍然 需要 传输 行 键 。 通 过 把 这 种 扫描 实现 为 endpoint， 可 以 把 所 
有 数据 留 在 HBase 节 点 上 。 在 网 络 上 传输 的 唯一 数据 就 是 加 总 后 的 值 。 


5.3.1 为 endpoint 定义 接口 


为 了 把 粉丝 计数 器 实现 为 一 个 endpoint， 可 以 从 一 个 新 接口 开始 。 
该 接口 建立 扩展 RPC 协 议 的 合约 ， 并 且 它 在 客户 端 和 服务 器 两 边 必 须 匹 
配 。 


public interface RelationCountProtocol extends CoprocessorProtocol { 
public long followedByCount (String USerId) throws IOException:; 

















这 里 定义 了 RelationCountProtocol， 它 开放 了 一 个 followedByCount() 
方法 。 这 是 在 客户 问 和 服务 器 上 面 编写 代码 的 基石 。 让 我 们 从 服务 器 开 
始 。 

5.3.2 实现 endpoint 


在 region 里 创建 一 个 扫描 需 不 同 于 客户 端 API 的 做 法 。 这 种 扫描 在 执 


行 扫描 的 机 器 上 读 取 数据 ， 这 和 通过 客户 端 API 执 行 的 扫描 不 同 。 这 种 
对 象 称 为 IntermalScanner。InternalScanner 和 客户 端 API 里 的 Scanner 在 概 
念 上 是 相同 的 。 区 别 在 于 它们 驻 留 在 RegionServer 上 ， 并 且 直 接 访问 存 
储 和 缓存 层 。 记 住 ， 实 现 endpoint 就 是 直接 在 RegionServer 上 编程 。 


如 下 所 示 ， 创 建 一 个 InternalScanner 实 例 : 
byte [] startkey = Md5Utils.md5sum(userId),; 
Scan Scan = new Scanl(startkey); 
scan.setFilter{(new PrefixFilterl(startkey)); 
scan.addColumn (Bytes.toBytes('f'), Bytes.toBytes ("from")); 
scan.setMaxVersions (1); 


RegionCoprocessorEnvironment env 
= (RegionCoprocessorEnvironment)getEnvironment () ; 
InternalScanner scanner = env.getRegion() .getScanner (scan), 


运行 协 处 理 器 的 region 有 特定 的 IntermalScanner。 可 以 通过 调用 环 
境 提供 的 getRegion0 辅 助 方法 得 到 那个 region。 该 环境 可 以 通过 
oo 类 里 的 getEnvironment() 方 法 得 到 。 在 这 种 情况 
， 你 使 用 的 是 本 地 缓存 ， 而 不 是 跨 网 络 复制 数据 。 这 样 速度 快 得 多 ， 
上 是 这 种 接口 还 在 是 有 些 不 同 。 如 下 所 示 ， 读 取 扫 描 结 末 : 
long Sum = 0; 
List<KeyValue> results = new ArrayList<KeyValue>(), 
boolean hasMore = false; 
do { 
hasMore = scanner.next (results).,; 
sum += results.size(),; 
results.clear(); 
} while (hasMore) ; 
scanner.close () ; 
return sum; 
do-while 循 环 ， 不 是 while 循 环 
遗憾 的 是 ，InternalScanner 没 有 实现 常见 的 java.util.Iterator 接 口 。 为 
了 确保 你 接收 到 所 有 的 结果 ， 使 用 了 这 里 看 到 的 do-while 人 循环 ， 而 不 是 








标准 的 while 循 环 。 男 一 种 处 理 方式 是 在 循环 里 复制 下 面 逻 辑 : 一 旦 读 
到 第 一 页 ， 再 使 用 通常 的 while 循 环形 式 。 这 种 循环 形式 在 C 程 序 里 更 为 
常见 。 

InternalScanner 返 回 的 results 结 果 是 原始 的 KeyValue 对 象 。 这 和 客户 
端 API 里 的 扫描 占有 明显 的 不 同 。 客 户 端 API 里 的 扫描 器 返回 代表 整 行 
的 Result 实例 。 而 InternalScanner 人 裔 历 对 应 单个 捍 元 的 KeyValue 实 例 。 通 
过 齐 慎 地 限制 扫 摘 返回 的 数据 ， 你 可 以 保证 一 个 KeyValue 能 够 代表 预 
期 结果 集 里 的 一 行 。 它 也 限制 了 必须 从 硬盘 读 出 的 数据 量 。 

把 这 些 放 在 一 起 ， 完 整 的 RelationCountImpl 如 代码 清单 5-2 所 示 。 

代码 清单 5-2 RelationCountImpl.java: 实现 endpoint 的 服务 器 部 分 


package HBaseIA.TwitBase.coprocessors; | 省 略 导 
全 4 入 部 分 


public class RelationCountImpl 
extends BaseEndpointCoprocessor implements RelationCountProtocol { 


@Override 
public long followedByCount (String userId) throws IOException { 
byte[] startkey = Md5Utils.md5sum(userId); 
Scan Scan = new Scan(startkey); 
scan.setFilter (new PrefixFilter(startkey)); 
scan.addColumn (RELATION FAM, FROM) ; 
scan.setMaxVersions (1) ; 


RegionCoprocessorEnvironment env me 
= (RegionCoprocessorEnvironment)getEnvironment () ; 打开 本 地 
InternalScanner scanner = env.getRegion() .getScanner (scan); < 一 | 扫描 器 


long Sum = 0; 
List<KeyValue> results = new ArrayList<KeyValue>(); 
boolean hasMore = false; 


do { 
hasMore = scanner.next (results),，; le 
遍历 扫 
sum += results.size(); Ly 
results.clear (); 七 一 一 描 结果 
I 1 hasM ; < 和 
} while thastionel 不 要 忘 了 在 两 次 特 


Scannezr .Close () ; 
之 闻 污 空 本 堵 疆 
return sum; 环 之 间 清 空 本 地 结 


} 果 缓 存 


5.3.3 实现 endpoint 客户 端 








随 着 定制 endpoint 的 服务 器 部 分 完成 ， 该 构建 它 的 客户 端 部 分 了 。 
你 可 以 把 这 部 分 代码 放 进 之 前 建立 的 RelationsDAO 里 。 服 务 占 部 分 需要 
传 入 userId 来 进行 查询 ， 根 据 接口 的 定义 这 是 很 清楚 的 。 但 是 这 张 表 仍 
然 需要 知道 行 键 的 范围 ， 协 处 理 器 会 基于 这 个 范围 被 调用 。 这 个 范围 会 
被 转换 成 需要 调用 协 处 理 器 的 一 组 region， 这 个 范围 在 客户 端 被 计算 出 
来 。 在 转换 得 到 这 组 region 后 ， 这 部 分 代码 就 和 客户 端的 扫描 器 范围 计 
算是 相同 的 了 : 











构造 起 始 键 
final byte[] StartKey = Md5Utils.md5sum(userId); < 
final byte[] endKey = Arrays.copyOf (startKey, startKkey.length),; 
endKey [endKey .length-1]++; 

es 和 结束 键 


有 趣 的 地 方 在 于 聚合 结果 。 执 行 endpoint 是 一 个 三 部 曲 。 第 一 步 是 
定义 Call 对 象 。 这 个 实例 完成 调用 特定 endpoint 的 工作 ， 
RelationCountProtocol 的 细节 完全 被 包含 在 里 面 。 你 可 以 定义 一 个 匿名 
的 内 联 Call 实 例 : 

Batch.Call<RelationCountProtocol, Long> callable = 
new Batch.Call<RelationCountProtocol, Long>() { 

@QOverride 

public Long call (RelationCountProtocol instance) 

throws IOException { 
return instance.followedByCount (userId); 





} 


}; 

第 二 步 是 调用 endpoint。 这 可 以 从 HTableInterface 直 接 调 用 : 
HTIableInterftace followers = pool.getTable (TABLE _ NAME) ; 
Map<byte[], Long> results 

followers.coprocessorExec( 

RelationCountProtocol .class, 

startrKey, 

endKey, 

callable); 


当 客 户 端 代码 执行 coprocessorExec() 方 法 时 ， HBase 客户 端 基于 起 
始 键 (startKey) 和 结束 键 (endKey) 把 调用 发 送 给 合适 的 
RegionServer。 在 这 种 情况 下 ， 按 照 region 的 分 配 情况 拆 分 扫描 范围 ， 只 
把 调用 发 送 给 相关 的 节点 。 

执行 endpoint 的 最 后 一 步 是 聚合 结果 。 客 户 端 从 每 个 被 调用 的 
RegionServer 上 接收 啊 应 信息 ， 并 且 加 总 结果 。 如 下 所 示 ， 基 于 <region 
名 字 ， 值 > 的 数据 对 执行 循环 ， 并 加 总 结果 : 


LONgG SU .02 
for (Map .Entry<byte [] Long> e : results.entrySet()) 1 
Sum += e.getValue() .longValue () ; 


} 





这 样 你 束 有 了 一 个 简单 的 分 散 聚 合计 算 方法 。 对 于 本 例 而 言 ， 由 于 
使 用 的 数据 量 很 少 ， 客 户 端 扫描 和 在 endpoint 里 实现 的 扫 摘 执行 速度 闫 
不 多 快 。 但 是 客户 端 扫描 消耗 的 网 络 IO 会 随 着 扫描 的 行 数 增长 而 线性 增 
长 。 当 扫描 被 推 到 endpoint 上 时 ， 你 不 必 把 扫描 结果 返回 给 客户 端 ( 只 
返回 计算 处 理 后 的 值 )， 从 而 节省 了 网 络 IO。 男 一 件 事情 是 ， endpoint 
协 处 理 器 在 所 有 包含 相关 行 的 region 上 并 行 执 行 。 而 客户 端 扫描 很 可 能 
是 一 个 单线 程 扫描 。 把 它 变 成 多 线程 和 跨 region 分 布 会 带 来 管理 分 布 式 
应 用 系统 的 复杂 性 ， 我 们 前 面 讨论 过 这 一 点 。 

从 长 期 来 看 ， 把 扫描 下 推 到 带 有 endpoint 的 RegionServer 会 带 来 一 些 
部 蜀 的 复杂 性 ， 但 是 其 执行 速度 比 传统 的 客户 端 扫描 要 快 得 多 。 

完整 的 客户 端 代 码 如 代码 清单 5-3 所 示 。 

代码 清单 5-3 endpoint 的 客户 端 部 分 ， 从 RelationsSDAO.java 里 节选 的 
片段 














public long followedByCount (final String userId) throws Throwable { 
HTableInterface followed = pool.getTable (FOLLOWED TABLE NAME); 构造 起 始 


final byte[] StartKey = Md5Utils.md5sum(userId); 键 …… 
final byte [] endKey = Arrays .copyoft (startKey, startKey.length); r= 
endKey[endKey.length-1]++;? 和 


Batch.Call<RelationCountProtocol, Long> callable = 结束 键 
new Batch.Call<RelationCountProtocol, Long>() { 
@Override 
public Long call (RelationCountProtocol instance) 第 1 步 : 定义 
throws IOException { Call 实例 
return instance.followedByCount (userId); 

} 

5 


Map<bytel[], Long> results = 第 2 步 : 调用 
followed.coprocessorExec( 
RelationCountProtocol .class, endpoint 
startKkey, 
endKey, 
callable); 
long sum = 0; 
for(Map.Entry<byte[], Long> e : results.entryset()) { 
sum += e.getValue () .longValue(); 
} | 聚合 来 自 各 个 
ER eum RegionServer 的 结果 


5.3.4 部 闭 endpoint 


现在 服务 器 部 分 准备 好 了 ， 让 我 们 开始 部 署 它 。endpoint 和 observer 
的 例子 不 同 ， 它 必须 通过 配置 文件 进行 部 署 。 你 必须 编辑 两 个 文件 ， 它 
们 都 在 $4HBASE_HOME/conf 目 录 下 可 以 找到 。 第 一 个 是 hbase- 
site.xml。 在 hbase.coprocessor.region. classes 属 性 里 增加 





RelationCountImpl: 
<property> 
<name>hbase.coprocessor.region.classes</name> 
<value>HBaseIA.TwitBase.coprocessors.RelationCountIimpl</value> 
</property> 


你 还 需要 确保 HBase 能 够 发 现 这 个 新 类 。 这 意味 着 也 要 更 新 hbase- 
envV.Sh 文 件 。 在 HBase 类 路 径 里 增加 你 的 应 用 JAR 包 : 


export HBASE CLASSPATH=/path/to/hbaseia-twitbase/target/twitbase-1.0.0.jar 


5.3.5 试 运行 


能 够 正常 工作 吗 ? 让 我 们 斌 试看。 先是 重建 代码 ， 然 后 重启 
HBase， 以 便 新 的 配置 信息 生效 。 你 已 经 存储 了 一 个 关系 ， 再 添加 一 
个 。 你 只 需要 定义 一 个 方向 的 关系 ， 你 的 observer 已 经 被 登记 过 ， 它 会 
自动 更 新 倒序 关系 的 索引 : 
$ java -cp target/twitbase-1.0.0.jar \ 


HBaseIA.TwitBase.RelationsTool follows GrandpaD SirDoyle 
Successfully added relationship 
现在 验证 这 些 关 系 是 否 准备 束 结 ， 试 试 你 的 endpoint: 
$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.RelationsTool list followedBy SirDoyle 
<Relation: SirDoyle <- TheRealMT> 
<Relation: SirDoyle <- GrandpaD> 
$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.RelationsTool followedByCoproc SirDoyle 
SirDoyle has 2 followers. 


工作 正 常 ! 不 仅 你 的 observer 更 新 了 关注 关系 的 倒序 关系 ， 而 且 你 
能 在 创建 记录 的 时 间 里 快速 得 到 粉丝 数量 。 


5.4 小 结 


协 处 理 器 API 为 HBase 提 供 了 强大 的 扩展 能 力 。observer 可 以 让 你 对 
数据 处 理 过 程 进行 精细 的 控制 。endpoint 允 许 你 在 HBase 里 建立 定制 的 
API。HBase 的 协 处 理 器 特性 还 比较 新 ， 用 户 仍然 在 摸索 如 何 使 用 这 个 
特性 。 它 们 也 不 是 用 来 取代 精心 设计 的 表 模 式 。 不 过 ， 协 处 理 器 是 工具 
箱 中 一 个 灵活 的 工具 ， 可 以 帮助 你 摆脱 困境 。 探 索 协 处 理 器 强大 威力 的 
唯一 方法 是 搭建 一 个 应 用 系统 ! 


第 6 章 其 他 的 HBase 客户 端 选 择 


本 章 涵 善 的 内 容 

加 创建 HBase Shell 脚 本 

加 使 用 JRuby 进行 Shell 编程 

加 使 用 asynchbase 

加 使 用 REST 网 关 

加 使 用 Thrift 网 关 

到 目前 为 止 ， 我们 介绍 的 所 有 与 HBase 的 交互 都 聚焦 在 使 用 Java 客 
户 端 API 和 随 HBase 附 带 的 函数 库 。Java 是 Hadoop 产 品 家 族 DNA 的 核心 
部 分 ， 不 可 轻易 分 开 。Hadoop 是 用 Java 编 写 的 ，HBase 是 用 Java 编 写 
的 ， 原 生 的 HBase 客 户 端 也 是 用 Java 编 写 的 。 这 里 有 一 个 问题 : 你 可 能 
不 用 Java。 你 可 能 不 喜欢 JVM， 但 你 仍然 想 使 用 HBase。 怎 么 办 呢 ? 
HBase 给 你 提供 了 其 他 不 使 用 Java 的 客户 端 选择 〈 基 于 JVM 的 和 不 基于 
JVM 的 ) 。 

在 本 章 中 你 会 看 到 如 何 使 用 其 他 方式 访问 HBase。 每 一 节 将 介绍 一 
种 客户 端 ， 并 演示 一 个 使 用 这 种 客户 端的 小 型 的 、 功 能 齐全 的 应 用 。 
个 小 应 用 使 用 不 同类 型 的 客户 端 与 HBase 通 信 。 每 一 节 采 用 同样 的 结 
构 : 先 介绍 内 容 ， 然 后 安装 必要 的 文 撑 库 ， 一 步 一 步 搭建 应 用 ， 最 后 总 
结 结果 。 每 个 应 用 彼此 独立 ， 所 以 你 可 以 直接 跳 到 你 觉得 有 用 的 章节 。 
本 章 没 有 介绍 新 的 理论 或 者 HBase 的 内 部 工作 机 制 ， 只 是 介绍 了 基于 非 
Java 和 非 JVM 语 言 使 用 HBase 的 简单 诀 穹 。 

本 章 从 研究 其 他 在 线 访 问 HBase 的 方式 开始 。 首 先 你 会 看 到 如 何 通 
过 UNIX Shell 脚 本 从 外 部 访问 HBase; 接 下 来 你 会 看 到 如 何 使 用 JRuby 
接口 ，HBase Shell 就 是 在 JRuby 上 实现 的 ;此 后 你 将 研究 asynchbase， 它 





是 专门 为 异步 访问 设计 的 另 一 种 Java 客 户 端 库 ; 最 后 按照 承诺 你 会 抛 开 
Java 和 JVM， 探 索 HBase 的 REST 和 Thrift 网 关 ， 在 这 里 将 分 别 使 用 Curl 和 


Python 语言 。 
6.1 在 UNIX HBaseShell 睦 


对 HBase 编程 的 最 简单 办 法 是 使 用 HBase Shell 脚本 。 在 前 面 的 章节 
中 已 经 简单 介绍 了 如 何 使 用 Shell。 现 在 你 可 以 使 用 那些 知识 来 创建 一 个 
有 用 的 工具 。 每 种 数据 库 安 装 都 需要 维护 它 的 模式 ，HBase 也 不 例外 。 

在 关系 型 世界 里 ， 模 式 迁 移 的 管理 是 个 头疼 的 问题 。 泛 泛 地 说 ， 这 
种 头疼 来 自 于 两 个 方面 。 第 一 个 是 模式 和 应 用 的 紧 耦 合 关 系 。 如 有 果 你 打 
算 为 一 个 已 有 实体 增加 一 个 新 属性 ， 通 常 意味 着 在 表 里 某 个 地 方 增加 一 
个 新 列 。 当 你 做 一 个 新 产品 时 ， 尤 其 是 在 一 个 新 公司 里 ， 快 速 欠 代 的 方 
式 对 于 应 用 的 成 功 来 说 至 关 重 要 。 但 是 ， 在 使 用 关系 型 数据 库 时 ， 增 加 
一 个 新 列 需 要 改变 模式 。 随 着 时 间 过 去 ， 你 的 数据 库 模 式 变 成 了 初始 设 
计 加 上 每 次 增 量变 化 的 上 总和。 主流 关系 型 系统 不 适合 管理 这 些 变 化 ， 因 
此 这 些 变化 变 成 了 软件 工程 的 工作 。 一 些 关 系 型 数据 库 随 机 附带 了 强大 
的 工具 来 管理 这 些 问 题 ， 但 是 很 多 数据 库 没 有 提供 这 种 工具 。 这 又 给 我 
们 囊 来 了 第 二 个 头疼 的 问题 。 

这 些 变化 经 常 采用 称 作 迁移 (migration) 的 SQL 脚本 形式 。 因 为 每 
个 脚本 建立 在 上 一 个 脚本 的 基础 上 ， 所 以 它们 需要 按 顺 序 执行 。 对 于 一 
个 长 期 的 、 成 功 的 、 数 据 驱 动 的 应 用 系统 ， 通 党 你 会 找到 一 个 包含 数 十 
甚至 数 百 个 这 种 脚本 文件 的 模式 文件 夹 。 每 个 脚本 文件 的 名 字 以 标志 它 
在 迁移 序列 里 位 次 的 数字 开头 。 还 有 更 复杂 一 些 的 迁移 管理 ， 但 是 它们 
根本 上 都 是 按照 正确 顺序 执行 这 些 迁 移 脚 本 的 工具 。 

HBase 也 有 和 需要 管理 的 模式 。 第 一 个 问题 对 HBase 来 说 是 个 小 问 
题 。 在 一 个 列 族 里 ， 列 不 需要 预先 定义 。 在 这 种 情况 下 ， 应 用 系统 可 以 



































一 点 一 点 地 改变 ， 而 不 需要 改变 HBase 模 式 。 但 是 ， 如 果 增 加 一 个 新 列 
族 ， 或 者 改变 已 有 列 族 的 属性 ， 或 者 增加 一 张 新 表 ，HBase 还 是 需要 改 
变 模 式 的 。 你 可 以 为 每 次 模式 迁移 创建 一 个 定制 的 应 用 ， 但 是 这 是 很 粳 
粹 的 做 法 。 相 反 ， 你 可 以 通过 HBase Shell 脚本 编程 来 复制 关系 型 系统 
使 用 的 模式 迁移 管理 计划 。 本 节 将 介绍 如 何 创建 这 些 脚 本 。 

你 可 以 在 TwitBase 项 目 源 代码 里 找到 本 节 使 用 的 完整 的 
init_twitbase.Sh 脚 本 ， 人 参见 
https://github.com/hbaseinaction/twitbase/blob/master/ bin/init twitbase.sh 。 











6.1.1 准备 HBase Shell 


HBase Shell 作为 HBase 默认 安装 的 一 部 分 随机 预 装 。 它 通过 
$SHBASE_HOME/bin/hbase 脚 本 来 启动 。 根 据 你 安装 HBase 的 方式 ， 这 个 
脚本 还 可 能 在 你 的 $9PATH 变 量 路 径 里 。 如 同 在 第 1 章 中 看 到 的 ， 启 动 


Shell 如 下 所 示 : 
$ $HBASE HOME/bin/hbase shell 


你 会 进入 Shell 应 用 ， 并 收 到 一 条 欢迎 辞 : 
HBase Shell; enter 'help<RETURN>' for list of supported commands. 
Type "exit<RETURN>" to leave the HBase Shell 
Version 0.92.1, rl1298924, Fri Mar 9 16:58:34 UTC 2012 


hbase (main):001:0> 
现在 你 已 经 核实 了 Shell 详 用 ， 可 以 开始 处 理 脚本 编程 了 。 
6.1.2 UNIX Shell 脚本 创建 表 模 式 


在 前 面 学 习 HBase 时 ， 你 还 处 在 开发 TwitBase 应 用 系统 的 开始 阶 
段 。 你 为 TwitBase 做 的 第 一 件 事情 是 使 用 HBase Shell 创建 一 张 users 
表 。 随 着 TwitBase 扩展 ， 你 的 模式 也 扩展 了 。 不 久 又 出 现 了 Twits 表 和 
Followers 表 。 这 些 表 的 所 有 管理 代码 都 积累 在 InitTables 类 里 。 因 为 
Java 有 些 哆 喧 ， 并 且 需 要 为 每 次 模式 迁移 创建 一 个 定制 的 应 用 ， 对 于 模 
式 管理 而 言 Java 不 是 一 种 方便 的 语言 。 让 我 们 用 HBase Shell 命令 重新 











构思 这 些 代 码 。 

在 InitTables 里 创建 表 的 代码 的 主体 对 于 每 张 表 而 言 看 起 来 大 部 分 是 
相同 的 : 
System.out .println("Creating Twits table..."); 
HTableDescriptor desc = new HTableDescriptor (TwitsDAO.TABLE NAME).,; 
HColumnDescriptor ¢ = new HColumnDescriptor (TwitsDAO.INFO FAM),; 
c.setMaxVersions (1); 
desc.addFamily(c); 
admin.createTable (desc); 
System.out .println("Twits table created."); 


你 可 以 使 用 Shell 达 到 同样 的 效果 : 
hbase (main) :001:0> create 'twits', {NAME => 't', VERSIONS => 1)} 
0 row(s) in 1.0500 seconds 

关于 JRuby 的 一 点 解释 

如 果 你 熟悉 Ruby 编程 语言 ，create 命令 看 起 来 特别 像 是 一 个 函数 调 
用 。 这 就 是 函数 调用 。HBase Shell 是 用 JRuby 实现 的 。 本 章 后 面 我 们 
会 了 解 更 多 与 JRuby 的 这 种 联系 。 

5 行 Java 代码 被 缩短 为 一 行 Shell 命 令 ? 看 起 来 不 错 。 现 在 你 可 以 取 
出 HBase Shell 命 令 ， 把 它 封装 到 一 个 UNIX Shell 脚本 里 。 注 意 ， 如 果 
hbase 命令 不 在 你 的 $PATH 变量 路 径 里 ， 命 令 行 exec hbase shell 可 能 会 
有 些许 不 同 。 处 理 这 件 事 情 的 最 终 脚 本 如 代码 清单 6-1 所 示 。 

#!/bin/sh 











exec $HBASE HOME/bin/hbase shell <<EOF 

create 'twits', {NAME => 't', VERSIONS => 1) 

EOF 

把 其 他 表 添 加 到 脚本 里 很 容易 : 

exec $HBASE HOME/bin/hbase shell <<EOF 
create 'twits', {NAME => 't', VERSIONS => 1} 
create 'users', {NAME => 'info'} 
create 'followes', {NAME => 'f', VERSIONS => 1} 
create 'followedBy', {NAME => 'f', VERSIONS => 1)} 
EOF 


人 至此， 你 已 经 把 表 和 列 族 名 字 都 从 Java 里 转移 出 来 了 。 在 命令 行 上 


履 盖 这 些 名 字 现 在 更 容易 了 : 
#!/bin/sh 








TWITS TABLE=${TWITS TABLE-'twits'} 
TWITS FAM=${TWITS FAM-'t'} 


exec S$HBASE HOME/bin/hbase shell <<EOF 

create '$STWITS TABLE', {NAME ms '$TWITS FAM', VERSIONS => 国 | 
create 'users', {NAME => 'info'} 

create 'followes', {NAME => 'f', VERSIONS => 1} 

create 'followedBy', {NAME => 'f', VERSIONS => 1} 

EOF 


如 有 果 进 一 步 更 新 脚本 代码 ， 从 一 个 配置 文件 里 读 出 那些 常量 ， 你 就 
可 以 把 整个 模式 定义 从 Java 代码 里 移出 来 了 。 现 在 你 可 以 在 同一 个 
HBase 集群 上 轻松 地 测试 基于 不 同 表 的 TwitBase 的 不 同 版 本 。 这 种 灵活 
性 会 大 大 简化 把 TwitBase 推 向 生产 系统 的 过 程 。 完 整 的 脚本 如 代码 清单 
6-1 所 示 。 

代码 清单 6-1 取代 InitTables.java 的 UNIX Shell 脚 本 





#!/bin/sh 
HBASE CLI="$HBASE HOME/bin/hbase" 找到 hbase 
test -n "S$HBASE HOME" || { 命令 的 位 置 


echo >&2 'HBASE HOME not set. using hbase on $PATH' 
HBASE CLI=$ (which hbase) 


| 确定 表 和 列 
TWITS TABLE=${TWITS TABLE-'twits'} 族 的 名 字 
TWITS FAM=${TWITS FAM-'t'} 

USERS_ TABLE=$ {USERS TABLE- 'users'} 

USERS FAM=${USERS FAM-'info'} 

FOLLOWS_ TABLE=$ {FOLLOWS TABLE- 'follows'} 

FOLLOWS FAM=$ {FOLLOWS FAM-'f'} 

FOLLOWEDBY TABLE=$ {FOLLOWED TABLE-'followedBy'} 

FOLLOWEDBY FAM=$ {FOLLOWED FAM-'f'} a 


exec "S$HBASE CLI" shell <<EOF 命令 


create '$TWITS TABLE', 
{NAME => '$TWITS FAM', VERSIONS => 1} 


create 'S$USERS TABLE', 
{NAME => 'S$USERS FAM')} 


create '$FOLLOWS TABLE', 
{NAME => 'S$FOLLOWS FAM', VERSIONS => 1} 


create '$FOLLOWEDBY TABLE', 
{NAME => 'S$FOLLOWEDBY FAM', VERSIONS => 1} 
EOF 


这 是 一 个 入 门 ， 教 你 如 何 使 用 HBase Shell 来 创建 让 HBase 部 署 中 的 
管理 任务 变 得 轻松 的 脚本 。HBase Shell 不 是 作为 HBase 的 主要 访问 方 
式 来 使 用 的 ， 这 意味 着 不 会 基于 HBase Shell 搭建 整个 应 用 系统 。HBase 
Shell 自身 是 一 个 在 JRuby 上 创建 的 应 用 ， 接 下 来 我 们 学 习 一 下 JRuby。 





6.2 JRuby 进 行 HBaseShell 编 程 


HBase Shell 提 供 了 一 个 方便 的 交互 环境 ， 足 以 满足 许多 简单 的 管理 
任务 。 但 是 ， 对 于 更 复杂 的 操作 ， 它 变 得 见长 乏味 。 如 同 我 们 在 上 一 节 
提 到 的 ，HBase Shell 是 用 JRuby 轩 实现 的 。 其 背后 是 一 个 很 好 的 库 ， 它 
把 HBase 客 户 端 开放 给 了 JRuby。 你 可 以 在 自己 的 脚本 里 使 用 这 个 库 在 
HBase 上 创建 更 复杂 的 自动 化 操作 。 本 例 中 ， 你 将 创建 一 个 工具 来 访问 
TwitBase 的 users 表 ， 类 似 于 你 用 Java 编 写 的 UsersTool。 这 会 让 你 体会 从 
JRuby 访 问 HBase 的 感受 。 

通过 JRuby 接 口 进行 HBase 编 程 从 复杂 性 来 说 比 Shell 编 程 更 进 一 
步 。 如 果 你 发 现 自己 在 编写 复杂 的 Shell 脚本 ，JRuby 应 用 可 能 是 更 好 
的 方式 。 如 果 因 为 某 种 原因 你 需要 使 用 Ruby 的 C 实 现 而 不 是 
JRuby (Ruby 的 Java 实 现 ) ， 你 应 该 研究 一 下 Thrift。 我 们 在 本 章 后 面 会 
演示 通过 Python 使 用 Thrift， 通 过 Ruby 使 用 Thrift 也 是 类 似 的 。 

你 可 以 在 TwitBase 项 目 源 代码 里 找到 本 节 使 用 的 完整 的 TwitBase.jrb 














脚本 ， 参 见 https://github.com/hbaseinaction/twitbase/blob/master/bin/ 
TwitBase.jrb。 


6.2.1 准备 HBase Shell 


启动 JRuby 应 用 的 最 简单 方式 是 通过 已 有 的 HBase Shell。 如 果 你 还 
没有 这 样 做 ， 请 按照 上 一 节 开始 时 的 指导 找到 Shell 命 令 的 位 置 。 

一 且 找 到 hbase 命 令 ， 你 就 可 以 把 它 作 为 目 己 脚 本 的 解释 左 。 因 为 
hbase 命 令 处 理 导 入 必需 的 库 和 实例 化 你 需要 的 类 ， 这 是 特别 有 用 的 。 
首先 我 们 创建 一 个 脚本 来 列 出 所 有 的 表 。 这 个 脚本 叫做 TwitBase.jrb: 

def list tables () 
@hbase.admin (@formatter) .list.each do |t 
puts 七 
end 
end 


list tables 
exit 
变量 @hbase 和 @formatter 是 Shell 为 你 创建 的 两 个 实例 。 它 们 是 你 
要 使 用 的 JRubyAPI 的 一 部 分 。 现 在 测试 一 下 这 段 脚本 : 
$ $HBASE HOME/bin/hbase shell ./TwitBase.jrb 
followers 
twits 
users 


一 切 束 绪 ， 让 我 们 开始 处 理 TwitBase。 





6.2.2 访问 TwitBase 的 users 
为 Shell 编 写 代 码 的 一 个 好 处 是 很 容易 检验 代码 。 启 动 Shell， 研 究 一 
下 这 种 API。 扫 描 users 表 需要 该 表 的 一 个 句 顶 和 一 个 扫 拉 器 。 先 从 获取 
句柄 开始 : 





$ hbase shell 


hbase (main) :001:0> users table = @hbase.table('users', @formatter) 
=> #<Hbase::Table:0x57cae5b7 @table=...>> 


下 面 为 这 张 表 创 建 一 个 扫描 器 。 使 用 常规 的 散 列 来 指定 扫描 器 的 选 
项 。 扫 描 器 构造 函数 在 该 散 列 里 寻找 几 个 指定 的 键 ， 包 
括 "STARTROW"、"STOPROW" 和 "COLUMNS"， 然 后 扫描 所 有 用 户 ， 
只 返回 他 们 的 用 户 名 、 名 字 和 电子 邮件 地 址 : 


hbase (main) :002:0> scan = {"COLUMNS" => ['info:user', 'info:name', 
!info:email']} 
= {"COLUMNS"=>["info:user", "info:name", "info:email"]} 
hbase (main) :003:0> users table.scan(scan) 
=> {"GrandpaD"=> 
{"info:email"=>"timestamp=1338961216314, value=fyodor@brothers.net", 
"info:name"=>"timestamp=1338961216314, value=Fyodor Dostoyevsky'", 
"info:user"=>"timestamp=1338961216314, value=GrandpaD"}, 
"HMS_Surprise"=> 
{"info:email"=>"timestamp=1338961187869, value=aubrey@sea .com", 
"info:name"=>'"timestamp=1338961187869, value=Patrick O'Brian", 
"info:user"=>"timestamp=1338961187869, value=HMS Surprise"}, 
"SirDoyle"=> 
{"info:email'"=>"timestamp=1338961221470, 
value=art@TheQueensMen.co.uk", 
"info:name"=>'"timestamp=1338961221470, value=Sir Arthur Conan Doyle", 
"info:user"=>"timestamp=1338961221470, value=SirDoyle"}, 
"TheRealMT"=> 
{"info:email"=>"timestamp=1338961231471, value=samuel@clemens .org", 
"info:name"=>"timestamp=1338961231471, value=Mark Twain", 
"info:user"=>"timestamp=1338961231471, value=TheRealMT"}} 


现在 你 需要 明 历 扫描 器 生成 的 键 值 对 。 征 开始 创建 这 个 脚本 的 时 候 





下 





这 个 API 里 有 一 个 稍微 偏离 主题 的 地 方 ，scan0 的 数据 块 版 本 把 每 个 
列 浓缩 进 了 "column=.., timestamp=..…., value=..." 格 式 的 字符 串 里 。 需 要 从 
字符 串 里 解析 出 你 感 兴 趣 的 数据 (限定 符 名 字 和 值 ) ， 然 后 积 囚 到 结果 
里 : 


scan = {"COLUMNS" => ['info:user', 'info:name', 'info:email']} 
results = {} 
users table.scan(scan) do |row,col| 

unless results [row] 


results[row] = {} 
m = /~^.*info:(.*), t.*value=(.*)$/.match (col) 结果 
regults [lrow]) [DJ =: m[2], TE£ 种 


end 


使 用 正则 表达 式 从 扫描 结 采 里 只 抽取 出 列 限定 符 和 单元 值 ， 然 后 把 
这 些 数 据 积 累 存 放 到 结果 散 列 里 ， 最 后 一 步 是 对 结果 进行 格式 化 输出 : 


results.each do |row,vals | 


© 


puts "<User %s, %s, %s>" % [vals['user'], vals['name'], vals['email']|] 


end 

现在 你 有 了 完成 这 个 例子 需要 的 所 有 代码 。 把 它们 封装 到 main() 孙 
数 ， 然 后 发 布 ! 最 终 的 TwitBase.jrb 脚 本 如 代码 清单 6-2 所 示 。 

代码 清单 6-2 TwitBase.jrb: 进行 HBase Shell 编 程 





def list users() 连接 到 表 | 
users table = @hbase.table('users', @formatter) _ 
scan = {"COLUMNS" => ['info:user', 'info:name', 'info:email']} 扫描 感 兴 
results = {} 的 
users table.scan(scan) do |row,col| < 一 
results [row] ||= {} 
Wi GC) t.*value=(.*)$/.match(col) 解析 KeyValue 
results[row] [m[1]] = m[2] if m 结果 
end 扯 
results.each do |row,vals| 
puts "<User %s, %s, %s>" % [vals['user'], vals['name'], vals['email']] 
end 
end 打印 输出 
用 户 行 





def main (args) 
if args.length == 0 || args[0] == 'help' 
puts <<EOM 
TwitpBases jrb ‘action a: 
help - print this message and exit 
list - list all installed users. 
EOM 
exit 
end 


if args[0] == 'list' 


list users 
end 


exit 
end 


main (ARGYV) 

脚本 完成 以 后 ， 把 它 设置 成 可 执行 文件 ， 试 运行 一 下 : 
$ chmod a+x TwitBase.jrb 
$ ./TwitBase.jrb list 
<User GrandpaD, Fyodor Dostoyevsky, fyodor@brothers.net> 
<User HMS Surprise, Patrick O'Brian, aubrey@sea.com> 
<User SirDoyle, Sir Arthur Conan Doyle, art@TheQueensMen.co.uk> 
<User TheRealMT, Mark Twain, samuel@clemens .org> 


这 就 是 全 部 内 容 了 。 使 用 JRuby 接 口 进 行 编程 是 在 HBase 上 搭建 原 
型 系统 或 者 自动 化 处 理 常 用 任务 的 一 种 简易 方式 。 它 建立 在 前 面 章节 使 
用 的 相同 的 HBase Java 客户 端 上 。 对 于 接 下 来 的 应 用 示例 ， 我 们 将 完 
扫 开 JVM。HBase 提 供 了 REST 接 口 ， 我 们 将 在 命令 行 上 使 用 Curl 演 示 这 
种 接口 。 




















阻止 人 们 体验 HBase 的 因素 之 一 是 它 和 Java 的 紧密 关系 。 对 于 愿意 
使 用 HBase 但 是 不 想 在 应 用 系统 里 使 用 Java 的 人 来 说 ， 还 有 几 种 其 他 的 
选择 。 无 论 你 是 在 研究 HBase 还 是 希望 把 HBase 和 集群 直接 交 给 应 用 开发 
人 员 ，REST 接 口 可 能 都 是 个 合适 的 选择 。 对 于 外 行 0 来 说 ，REST 是 
和 网 络 上 的 对 象 进行 交互 的 惯例 。HBase 预 装 了 REST 服 务 ， 你 可 以 用 其 
来 访问 HBase， 不 需要 Java。 

REST 服 务 作为 一 个 独立 的 进程 运行 ， 使 用 我 们 前 面 研 究 过 的 同样 
的 客户 端 API 与 HBase 通 信 。 它 可 以 运行 在 任何 能 够 与 HBase 通 信 的 机 器 
上 。 这 意味 着 你 可 以 启动 一 组 REST 服 务 机 器 来 服务 于 你 的 HBase 集 群 。 








这 种 扫描 器 API 是 有 状态 的 ， 它 需要 资源 分 配 信 息 ， 只 有 收 到 请 求 的 
REST 机 器 才 拥 有 这 种 信息 。 这 意味 着 使 用 扫描 器 的 客户 端 在 使 用 那个 
扫描 时 总 是 需要 返回 到 同一 台 REST 主 机 。 一 个 REST 接 口 部 署 的 网 络 拓 
扑 大 致 如 图 6-1 所 示 。 

还 有 其 他 选择 吗 ? 真 的 吗 ? 

你 拒绝 使 用 Java， 也 拒绝 使 用 REST? 你 真是 无 可 救 药 了 ! 别 担 
心 ，HBase 还 有 一 个 解决 方案 一 一 Thrift。 实 践 中 ，REST 服 务 很 少 用 于 
关键 应 用 系统 。 相 反 ， 你 可 以 使 用 Thrift 服 务 。 下 一 节 全 面 介绍 Thrift: 
一 个 Python 应 用 通过 Thrift 与 HBase 通 信 。 












HBase 客 户 端 REST 网 关 


a a ee a a i mm a me i a a em mm a i mm a a a i mm a i a a am am am 


图 6-1 REST 网 关 部 署 。 所 有 客户 端 活动 像 漏斗 一 样 从 这 个 网 关 通 
过 ， 大 大 制约 了 客户 端的 吞吐 量 。 一 组 REST 网 关机 器 可 以 减缓 这 种 局 
限 性 。 但 是 一 组 机 器 融 来 了 新 的 限制 ， 据 使 客户 端 只 能 使 用 API 中 无 状 
态 的 部 分 
REST 服务 还 文 持 很 多 种 啊 应 格式 ， 由 Content-Type 请 求 控 制 。 所 
有 端点 支持 XML 、JSON 和 Protobufs。 许 多 状态 和 管理 端点 还 支持 纯 文 
本 。 可 以 使 用 的 合适 的 首部 值 是 text/plain、text/xml、application/json、 


application/x-protobuf 和 application/octet-stream 。 


6.3.1 有 尼 动 HBase REST 


先 从 启动 REST 服务 开始 。 你 需要 安装 HBase 并 进行 正确 配置 。 使 
用 与 启动 Shell 一 样 的 hbase 基 本 命令 ， 把 该 服务 运行 为 一 个 活动 进程 。 


$ hbase rest 


usage: bin/hbase rest start [-p <arg>] [-ro] 


-p,--port <arg> Port to bind to [default: 8080] 
-ro,--readonly Respond only to GET HTTP method requests [default.: 
falsel 


启动 REST 服 务 ， 监 听 端 口 9999， 如 下 所 示 : 
$ hbase rest start -P 9999 


INFO mortbay.1og: jetty-6.1.26 
INFO mortbay.log: Started SocketConnector@0.0.0.0:9999 


打开 一 个 新 终端 并 发 出 一 个 简单 的 curl 命 令 来 验证 REST 服 务 启动 和 
运行 了 。 现 在 所 有 人 都 在 使 用 JSON， 所 以 你 也 试 试 。 我 们 甚至 擅自 为 
你 的 环境 整理 了 输出 信息 。 


$ curl -H "Accept: application/json" http://localhost:9999/version 


{ 


"JVM": "Apple Inc. 1.6.0 31-20.6-b01-415", 
"Jersey": "1.4", 

"OS “Mac OS WE T0004 He 4" 

mREST r O00: 

"Server'™: "jetty/6.1.26" 


这 是 REST 服 务 的 短 输出 版 本 。 如 果 需 要 底层 集群 的 信息 ， 你 要 单 


独 申 请 : 
$ curl -H ... http://localhost:9999/version/cluster 


10.92 11 
输出 漂亮 的 JSON 


用 来 生成 这 个 输出 所 段 的 实际 命令 是 "curl -H 
"Accept:application/json"http://localhost:9999/version 2>/dev/null | python- 
mjson.tool 。 我 们 会 继续 粉饰 首部 和 显示 美化 处 理 后 的 输出 ， 即 使 没有 
明确 展示 完整 的 命令 。 

注意 ， 在 第 一 个 终端 窗口 里 REST 服 务 正 在 记录 收 到 的 请 求 。 这 便 
于 调试 。 


把 REST 服务 运行 为 后 人 台 守 护 进程 几乎 一 样 简 单 。 根 据 你 的 安装 ， 
hbase-daemon.sh 脚本 可 能 不 在 $PATH 变量 路 径 里 。 如 果 不 在 ， 转 向 
HBase 安装 目录 ， HBASE_HOME/bin。 一 旦 找到 这 个 脚本 ， 启 动 后 台 
守护 进程 如 下 : 
$ hbase-daemon.sh start rest -p 9999 
starting rest, logging to logs/hbase-hbase-rest-ubuntu.out 


再 一 次 ， 验 证 REST 服 务 正在 正常 运行 。 这 次 请 求 列 出 所 有 表 : 
$ Curl -H sos%。 http://localhost:9999/ 





| 
"table": [ 
{ 
"name": "followers" 
3 
{ 
name'": "twits" 
j 汗 
| 
"name'": "users" 
} 
] 
} 


现在 你 可 以 试 试 了 。 是 通过 HTTP 访 问 HBase 的 时 候 了 。 
6.3.2 访问 TwitBase Husers 


REST 服务 已 经 启动 了 ， 可 以 访问 HBase 了 。 希 望 查 出 Mark Twain 
的 密码 吗 ? 你 只 需要 用 他 的 行 键 和 列 就 可 以 得 到 这 个 数据 。 想 想 HBase 
的 逻辑 数据 模型 一 一 映射 的 映 射 ， 很 容易 猿 出 REST URI 是 什么 样子 。 
构造 这 个 请 求 : 


$ curl -H ... http://localhost:9999/users/TheRealMT/info:password 


ROW' [ 
noel lws | 
{ 
nou : "YWJjMTIZ" 
"column": "aWS5mbzpwYXNzd29yZA==",， 
"timestamp": 1338701491422 
} 
] ， 
"key": "VGh1LIUmVhbE1LUn" 


] 


你 要 从 一 张 表 的 一 行 里 取出 一 个 单元 ， 这 就 是 你 接收 到 的 数据 。 单 
元 (Cell) 对象 有 3 个 字段 。 列 〈column) 和 时 间 戳 〈timestamp) 是 不 
需要 解释 的 ，$ 是 单元 的 值 。 

穿着 JSON 外 衣 的 XML 

这 种 输出 格式 是 真正 的 JSON。 因 为 生成 这 种 输出 格式 和 生成 XML 
都 使 用 相同 的 库 和 规则 ， 它 只 在 几 个 关键 地 方 和 符合 语言 习惯 的 JSON 
有 点 儿 区 别 。$ 字 段 是 这 种 实现 细 贡 的 一 个 例子 。 在 写 入 新 值 时 会 遇 到 
另 一 个 例子 : 属性 的 顺序 问题 。 

遇 到 疑问 时 ， 请 检查 源 代 码 。 用 来 从 REST 服务 取出 数据 的 类 都 是 
有 据 可 得 的 ， 它 们 清楚 地 描述 了 它们 期 望 生 成 和 使 用 的 模式 。 

行 键 、 列 和 值 是 HBase 的 全 部 数据 ， 所 以 它们 以 Base64 编 码 字 符 串 
形式 返回 。 因 为 你 把 密码 存储 为 简单 的 字符 串 ， 你 可 以 使 用 base64 实 用 
库 解 码 数 据 得 到 值 : 

$ echo "YWJjMTIz" | base64 --decode 
abc123 

让 我 们 给 Mark 设 置 一 个 高 级 点 儿 的 密码 。 写 入 数据 的 最 简单 方式 是 
发 送 原始 字 节 。 这 次 你 将 指定 Content-Type 首 部 来 标记 你 是 如 何 发 送 数 
据 的 。 本 例 中 你 要 写 入 的 值 是 一 个 ASCII 码 字符 串 ， 所 以 并 不 复杂 : 


} 

















S curl -XPUT \ 
-H _ "Content -Type: application/octet-stream" \ 
http://localhost:9999/users/TheRealMT/info:password \ 
-d '7ON@rI NO 70tORO' | 
为 了 继续 使 用 JSON， 你 还 需要 在 发 送 数据 前 对 数据 进行 Base64 编 
码 。 先 从 编码 新 值 开始 。 确 保 在 echo 命令 后 加 上 -n 选项 ， 否 则 你 会 在 
新 密码 的 尾部 无 意 中 加 上 一 个 换行 符 : 
$ echo -n "70NQrI NO 70t0RO" | base64 
NzZzBOOHJJIE4wIDcwAdDBSMA== 
现在 发 送 消息 体 。 这 是 一 个 遇 到 属性 顺序 问题 的 例子 。 确 保 在 单元 
(Cell) 对 象 映射 里 最 后 一 行 放 入 $。 不 要 忘 了 指定 Content-Type 首 部 来 
标志 你 在 发 送 JSON。 完 整 的 命令 如 下 : 
$ curl -XPUT \ 
-H "Content-Type: application/json" \ 
http://localhost:9999/users/TheRealMT/info:password \ 
-qd '{ 
ROW i 


{ 





"Cell™: [ 
{ 
"column": "aWSmbzpwYXNzd29yZA== 
"S$S": "NzBOQHJJIE4wWwIDcwdDBSMA==" 


} 
] ， 
"key": "VGhLUmVhbE1LUn" 


] 


REST 服 务 日 志 会 确认 收 到 数据 。 相 应 的 日 志 行 〈 截 短 过 的 ) 看 起 


来 如 同 下 面 这 样 : 
rest .RowResource: PUT http://localhost: ee password 
rest .RowResource: PUT pape I . "vlen":16}]. 


REST 服 务 也 开放 了 一 简单 的 列 宣 雪 的 切 能 “这 到 该 家 的 GET 全 
会 得 到 整个 表 的 清单 。 人 不 开放 了 使 用 一 个 * 做 前 缀 匹配 的 


基本 过 波 露 扫描。 为 了 碍 找 所 有 以 字符 T 开 头 的 用 户 名 字 ， 可 以 使 用 下 


面 的 命令 : 
$ curl -H ... http://localhost:9999/users/T* 


{ 
"Row": [ 
{ 


"Cell™: | 


Ls 
"key": "VGh1UmMVhbElU" 


}， 


] 


} 
对 于 一 个 更 细 粒 度 的 扫描 ， 你 可 以 在 服务 器 上 实例 化 一 个 扫描 器 ， 


证 它 逐 页 扫描 结果 。 例 如 ， 创 建 一 个 扫描 器 查找 用 户 名 小 于 工 的 所 有 用 
户 ， 一 次 翻 页 一 个 单元 。REST 服 务 会 返回 融 痢 扫描 器 实例 URI 的 HTTP 
201 Created 响应 代码 。 在 curl 上 使 用 -v 选 项 可 以 看 到 这 个 响应 代码 : 


$ echo -n "A" | base64 
QQ== 
$ echo -n "I" | base64 
SQ== 


$ curl -Vv -XPUT \ 
-H "Content-Type: application/json" \ 
http://localhost:9999/users/scanner \ 
-d "{ 
"startRow: "QQ==", 
"endROw": "SQ==", 
was 1 


} ! 


< HTTP/1.1 201 Created 
< Location: http://localhost:9999/users/scanner/133887004656926fc5b01 
< Content-Length: 0 


使 用 响应 信息 里 的 位 置 〈location ) 来 逐 页 扫描 结果 ， 如 下 所 示 : 





$ curl -H ... http://localhost:9999/users/scanner/133887004656926fc5b01 
{ 
Row": [ 
{ 
TOGELNE: 并 
{ 
"S$": "2n1V2ZG9yQGJyb3RoZXJzLm51QRA==" 
"column": "aWSmbzplbWFpbA==", 


"timestamp": 1338867440053 


} 
jw 
"key": "R3JhbmRwYUQ=" 


] 


重复 调用 这 个 URI 会 逐 页 返回 连续 的 扫描 结果 。 一 旦 行 清单 到 头 ， 
下 一 次 调用 扫描 器 实例 会 返回 HTTP 204 No Content 响应 代码 。 

以 上 是 使 用 HBase REST 网 关 的 要 点 。 如 果 需 要 做 的 不 仅仅 是 对 
HBase 集群 进行 研究 ， 而 是 大 规模 线 上 应 用 ， 你 需要 使 用 Thrift 网 关 。 
下 一 节 将 研究 Thrift。 


} 








如 果 你 不 用 Java， 最 常见 的 访问 HBase 的 方法 是 通过 Thrift QH 。 
Thrift 是 一 种 语言 和 一 套 生 成 代码 的 工具 。Thrift 有 一 种 描述 对 象 和 服务 
的 接口 定义 语言 (Interface Definition Language) 。 它 提供 了 一 种 网 络 协 
议 ， 使 用 这 些 对 象 和 服务 定义 的 进程 之 间 基 于 这 种 网 络 协议 彼此 进行 通 
信 。Thrift 根 据 你 描述 的 界面 定义 语言 生成 你 喜欢 的 语言 的 代码 。 使 用 
这 种 代码 ， 你 可 以 编写 应 用 ， 通 过 Thrift 提 供 的 通用 语言 与 其 他 应 用 系 
统 进行 通信 。 

HBase 随机 预 装 了 描述 服务 层 和 对 象 集合 的 Thrift IDL。HBase 也 
提供 了 实现 接口 的 服务 。 本 节 你 将 生成 Thrift 客 户 问 库 来 访问 HBase。 你 
将 使 用 客户 端 库 通 过 Python 访问 HBase， 这 种 方式 完全 脱离 了 Java 和 











JVM。 因 为 Python 的 语法 对 于 新 手 和 老手 来 说 都 很 容易 掌握 ， 所 以 我 们 
选择 使 用 Python。 你 可 以 通过 其 他 语言 使 用 同样 的 方式 来 访问 HBase。 
写 到 这 里 的 时 候 ，Thrift 已 经 支持 14 种 不 同 的 语言 。 

这 个 API 有 些 不 同 

在 某 种 程度 上 ， 由 于 Thrift 想 支持 如 此 多 种 语言 的 野心 ， 它 的 IDL 相 
当 简 单 。 它 缺乏 在 许多 语言 里 常见 的 特性 ， 如 对 象 继承 。 因 此 使 用 
HBase Thrift 接 口 和 使 用 我 们 已 经 研究 过 的 Java 客 户 端 API 有 些 不 同 。 

让 Thrift API 更 接近 于 Java 的 工作 已 经 开始 ， 但 还 只 是 在 进行 
中 。HBase 0.94 里 有 一 个 早期 版 本 ， 但 是 它 缺 乏 一 些 重 要 特性 ， 像 过 滤 
器 和 使 用 endpoint 协 处 理 器 由 | 。 在 这 个 工作 被 完成 时 ， 我 们 这 里 研究 
的 Thrift API 将 会 停 用 。 

使 用 Thrift API 的 好 处 在 于 对 于 所 有 语言 都 是 相同 的 。 无 论 你 使 用 
PHP、Perl 还 是 C#， 接 口 总 是 一 样 的 。 增 加 到 Thrift API 的 补充 的 HBase 
特性 支持 在 哪里 都 可 以 用 。 

但 Thrift 接 口 也 不 是 没有 限制 。 尤 其 是 ， 它 面临 和 REST 接 口 一 样 的 
吞吐 量 挑战 。 所 有 客户 端 连接 就 像 漏斗 一 样 通过 和 HBase 集 群 通信 的 单 
台 机 器 。 因 为 Thrift 客 户 端 在 会 话 持续 期 间 为 一 个 实例 打开 一 个 连接 ， 
所 以 使 用 Thrift 接 口 比 使 用 REST 轻 松 一 些 。 但 是 ， 一 部 分 API 是 有 状态 
的 ， 所 以 断 开 连 接 的 客户 端 在 打开 一 个 新 连接 时 会 丢失 被 分 配 资源 的 访 
问 信 息 。 一 个 Thrift 接 口 部 署 的 网 络 拓扑 如 图 6-2 所 示 。 














F 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 





图 6-2 Thrift 接 口 部 署 。 所 有 客户 端 像 漏斗 一 样 通过 接口 ， 大 大 制约 
了 客户 病 否 吐 量 。 因 为 Thrift 协 议 是 基于 会 话 的 ， 使 用 Thrift 接 口 比 REST 
轻松 一 些 。 
本 练习 使 用 Python 语言 ， 所 以 让 我 们 从 创建 一 个 Python 项 目 开 
始 ， 到 生成 一 个 HBase 客户 端 库 结束 。 该 项 目的 最 终 代 码 可 以 在 GitHub 
里 得 到 ， 参 见 : https://github.com/hbaseinaction/twitbase.py。 


6.4.1 % Python 语言 的 HBase Thrift 客户 端 
为 了 建立 Thrift 客 户 端 库 ， 你 需要 安装 Thrift。 但 是 Thrift 还 没有 打 
包 ， 所 以 你 必须 基于 源 代码 编译 它 。 因 为 Thrift 可 以 通过 Homebrew [4 
得 到 ， 所 以 在 Mac 机 器 上 这 一 步 束 很 简单 : 


$ brew install thrift 





==> Summary 
/usr/local/Cellar/thrift/0.8.0: 75 files, 5.4M, built in 2.4 minutes 
那些 运行 其 他 平台 的 机 器 需要 手工 建立 Thrift。 可 以 查看 Thrift 需 求 
05] 文档 来 了 解 针 对 你 的 平台 的 细节 。 
完成 以 后 ， 验 证 你 的 Thrift 已 经 启动 并 且 工 作 正 常 : 
S thrift -version 
Thrift version 0.8.0 


你 希望 不 用 下 载 HBase 源 代码 束 可 以 读 完 这 本 书 ， 对 吗 ? 很 抱歉 ， 
会 让 你 失望 的 。 如 果 你 需要 Thrift 竹 户 端 ， 束 必须 下 载 HBase 的 源 代码 : 


$ wget http://www.apache.org/dist/hbase/hbase-0.92.1/hbase-0.92.1.tar.g2z 


Saving to: “hbase-0.92.1.tar.gz' 
$ tar xzf hbase-0.92.1.tar.gz 


在 下 载 HBase 源 代码 和 安装 Thrift 后 ， 你 需要 关注 一 个 文件 ， 即 src/ 
main/resources/org/apache/hadoop/hbase/thrift/Hbase.thrift。 这 就 是 摘 述 
HBase 服务 API 和 有 关 对 象 的 IDL 文 件 。 请 快速 浏览 一 下 这 个 文件 一 一 
Thrift IDL 是 很 容易 读 懂 的 。 现 在 你 准备 好 了 用 来 生成 Python 客户 端的 
所 有 东西 。 

先 给 自己 创建 一 个 项 目 目录 ， 然 后 生成 HBase 客 户 端 ; 


mkdir twitbase.py 

cd twitbase.py 

thrift -gen py ../hbase-0.92.1/src/main/resources/org/apache/hadoop/hbase/ 
thrift/Hbase.thrift 

mv gen-py/* . 

$ rm -r gen-py/ 


你 创建 了 一 个 叫做 twitbase.py 的 项 目 ， 然 后 生成 了 HBase Python 
库 。Thrift 在 一 个 叫做 gen-py 的 子 目 录 里 生成 它 的 代码 。 把 这 些 文件 移 
动 到 你 的 项 目 里 ， 你 可 以 轻松 把 代码 导入 到 应 用 里 。 看 看 生成 了 什么 文 
件 : 


UU 


Ur 





SS Eiud 
DY 
./hbase 
./hbase/ init .py 
./hbase/constants .py 
./hbase/Hbase-remote 
./hbase/Hbase.py 
./hbase/ttypes .py 
你 还 需要 安装 Thrift Python 库 。 这 些 是 通过 Python 使 用 的 所 有 Thrift 
服务 的 核心 组 件 ， 所 以 你 可 以 全 局 性 安装 它们 : 


$ sudo easy install thrift==0.8.0 
Searching for thrift==0.8.0 
Best match: thrift 0.8.0 


Finished processing dependencies for thrift 
另外 ， 这 个 库 也 是 你 编译 的 源 代 码 的 一 部 分 。 你 可 以 像 处 理 HBase 
客户 端 那样 把 这 些 文件 复制 到 你 的 项 目 里 。 在 twitbase.py 目 录 下 ， 你 可 
以 复制 这 些 文件 ， 如 下 所 示 : 
Ss MEALY 二 下 
$ Cp -rr ../thrift-0.8.0/lib/py/src/* ./thrift/ 
验证 一 切 按照 预期 那样 工作 。 先 启动 Python， 然 后 导入 Thrift 和 
HBase 库 。 没 有 输出 信息 意味 着 一 切 正 第 : 
$ Python 
ByEhonm ZT. (rr271868325 Jul 31 .2011 LT9m30m53) 





Fm Dort thrift 
>>> import hbase 

确保 在 twitbase.py 目 录 下 运行 这 些 命令 ， 否 则 import 语 句 会 失败 。 
当 客 户 端 库 准 备 好 以 后 ， 让 我 们 开启 服务 器 组 件 。 

6.4.2 后 动 HBase Thrift 

Thrift 服 务 占 组 件 已 经 随 HBase 预 猴 了 ， 所 以 它 没 有 涉及 客户 病 库 所 
需要 的 安装 过 程 。 可 以 使 用 hbase 命 令 ， 如 同 局 动 Shell 一 样 启 动 Thrift 服 
务 : 


$ hbase thrift 





usage: Thrift [-b <arg>] [-c] [-f] [-h] [-hsha | -nonblocking | 
-threadpool] [-p <arg>] 
-b,--bind <arg> Address to bind the Thrift server to. Not supported by 
the Nonblocking and HsHa server [default: 0.0.0.0] 
-MDat Use the compact protocol 


-f,--framed Use framed transport 








-h,--help Print help information 
-hsha Use the THsHaServer. This implies the framed transport. 
-nonblocking Use the TNonblockingServer. This implies the framed 
transport. 
-p,--port <arg> Port to bind to [default: 9090] 
-threadpool Use the TThreadPoolServer. This is the default. 
、 一 站 站 — . yy » 
先 确 定 HBase 已 经 启动 ， 并 且 正 在 运行 ， 再 启动 Thrift 服 务 。 默 认 设 
A 
置 应 该 可 以 正常 工作 : 


$ hbase thrift start 


Te ee starting HBase ThreadPool Thrift server on /0.0.0.0:9090 
在 客户 端 和 服务 器 都 准备 好 以 后 ， 该 测试 它们 了 。 在 twitbase.py 项 

目 目录 下 打开 一 个 终端 窗口 ， 再 一 次 司 动 Python: 

$ Python 

Byrehom ZZ Tl 027 S0832 nd 天 20 93930553 


>>> from thrift.transport import TSocket 

>>> from thrift.protocol import TBinaryProtocol 

>>> from hbase import Hbase 

>>> transport = TSocket.TSocket('localhost', 9090) 

>>> protocol = TBinaryProtocol.TBinaryProtocol (transport) 
>>> client = Hbase.Client (protocol) 

>>> transport.open() 

>>> client.getTableNames () 

['ftoLlloweras "twits's uera'] 


走 到 这 里 花 了 一 些 时 间 ， 但 是 一 切 正常 工作 ! 现在 可 以 开始 处 理 正 
事 儿 了 。 


6.4.3 TwitBase users 


在 开始 编写 代码 之 前 ， 让 我 们 对 解释 器 多 做 些 研究 ， 来 感受 一 下 这 
种 API。 你 对 扫描 users 表 有 兴趣 ， 所 以 让 我 们 从 扫描 器 开始 看 。 但 看 
Hbase.py 里 的 Hbase.IFace 类 ， 看 起 来 其 中 scannerOpenO 是 最 简单 的 方 
法 。 访 方法 返回 在 Thrift 服 务 右 上 调用 的 扫 摘 器 ID 。 让 我 们 测试 一 下 : 


>>> Columns ['info:user','info:name','info:email'] 
>>> Scanner = client.scannerOpen('users', '', columns) 
>>> Scanner 


14 
在 这 里 ， 你 申请 在 users 表 上 运行 一 个 全 表 扫 描 右 ， 只 需要 返回 


info 列 族 的 3 个 限定 符 。 当 前 返回 的 扫描 需 ID 是 14。 让 我 们 取出 第 一 
行 ， 看 看 读 取 了 什么 内 容 : 


>>> row = client.scannerGet (scanner) 
>>> row 
[TRowResult ( 


columns={'info:email': TCell (timestamp=1338530917411, 
value='samuel@clemens .org'), 


'info:name': TCell (timestamp=1338530917411, 
value='Mark Twain'), 

'info:user': TCell (timestamp=1338530917411, 
value='TheRealMT')}, 





row='TheRealMT' )] 
scannerGet() 返 回 一 个 只 有 一 行 (TRowResult)〉 的 列表 。 该 行 有 一 


个 columns 字 上段， 该 字段 是 从 列 限定 符 到 TCell 实 例 的 字典 。 

现在 你 知道 自己 在 做 什么 了 吧 ， 让 我 们 创建 一 个 类 来 封装 所 有 细 
节 。 把 这 个 辅助 类 命名 为 TwitBaseConn， 提 供 一 个 构造 函数 来 隐藏 所 
有 Thrift 连接 细节 。 还 有 ， 确 保 关 闭 (close()) 所 有 打开 (open()) 的 东 
西 : 


class TwitBaseConn (object): 
def ‘init (self, host="localhost", port=9090): 
transport = TSocket .TSocket (host, port) 
self.transport = TTransport .TBufferedTransport (transport) 
self .protocol = TBinaryProtocol .TBinaryProtocol (self .transport) 
self.client = Hbase.Client (self .protocol) 
self .transport .open () 





def close(self): 
self .transport .Close () 


这 定义 了 一 个 连接 本 地 运行 的 Thrift 服 务 的 默认 构造 函数 。 它 还 在 
网 络 层 上 增加 了 额外 一 层 ， 在 缓冲 区 里 封 疾 了 套 接 字 (socket) 。 现 在 
增加 一 个 方法 来 处 理 从 users 表 里 扫 摘 行 : 


def scan: users (self): 
columns = ['info:user', 'info:name', 'info:email'] 


scanner = self.client.scannerOpen('users', '', Columns) 


row = self.client.scannerGet (scanner) 
while row: 

yield row[0] 

row = self.client.scannerGet (scanner) 
self.client.scannerClose (scanner) 


这 部 分 代码 执行 读 取 行 和 关闭 扫描 器 等 任务 。 但 是 这 些 行 的 内 容 处 





理 需要 使 用 很 多 Thrift 库 的 细节 ， 所 以 让 我 们 增加 另 一 个 方法 来 取出 你 
要 的 数据 : 


def user from row(self, row): 
user = {} 
for col,cell in row.columns.items () : 
user[col[5:]] = cell.value 


return "<User: {user}, {name}, {email}>".format (**user) 


这 个 方法 循环 遇 历 TCell ， 并 且 根 据 其 内 容 创 建 一 个 字符 串 。 让 我 





们 修改 scan_users() 来 调用 这 个 方法 而 不 只 是 返回 原始 的 行 : 
def scan users (self): 
columns = [l'info:user',; info:name', "1infosemall'] 


scanner = self.client.scannerOpen('users', '', Ccolumns) 


row = self.client.scannerGet (scanner) 
while row: 

yield self. user from row!(row[0]) 

row = self.client.scannerGet (scanner) 
self.client.scannerClose (scanner) 








很 好 ! 剩 下 的 事情 束 是 把 它 打包 进 main() 疯 数 ， 然 后 局 动 运 行 。 最 
终 的 TwitBase.py 脚 本 如 代码 清单 6-3 所 示 。 
代码 清单 6-3 TwitBase.py: 使 用 Python 通过 Thrift 连 接 到 TwitBase 


#! /usr/bin/env Python 
import sys 


from thrift.transport import TSocket, TTransport 
from thrift.protocol import TBinaryProtocol 


from hbase import Hbase 
from hbase.ttypes import * 


Usage = """TwitBase.py action 
help - print this messsage and exit 
list - list all installed users.""" 


class TwitBaseConn (object): 
def init (self; host="localhost", port=9090): 
transport = TSocket.TSocket (host, port) 
self.transport = TTransport .TBufferedTransport (transport) 
self.protocol = TBinaryProtocol.TBinaryProtocol (self .transport) 
self.client = Hbase.Client (self .protocol) 
self .transport .open () 


def close(self): 
self.transport.close() 


def user from row(self, row): 
user = {} 
for col,cell in row.columns .items() : 
user[col[5:]] = cell.value 
return "<User: {user}, {name}, {email}>".format (**user) 


def scan users (self): 

columns = ['info:user', 'info:name','info:email'] 
scanner = self.client.scannerOpen('users', '', columns) 
row = self.client.scannerGet (scanner) 
while row: 

yield self. user from row(zow[0] ) 

row = self.client.scannerGet (scanner) 
self.client.scannerClose (scanner) 


def main(args=None): 
if args is None: 
args = sys.argv[l1:] 


if lenl(largs) == 0 or 'help' == args [0] : 
print usage 


raise SystemExit () 
twitBase = TwitBaseConn() 


lt ostol SS ats 
for user in twitBase.scan users(): 
print user 


twitBase.close() 


It name == ' main _': 
main () 

main() 函 数 超级 简单 。 它 的 任务 是 打开 连接 ， 调 用 扫描 ， 输 出 结 
果 ， 然 后 再 关闭 连接 。 使 用 Python， 不 需要 编译 。 但 你 的 确 需要 把 文件 
变 成 可 执行 文件 ， 只 是 一 行 命令 而 已 : 

$ chmod a+x TwitBase.py 

现在 你 可 以 试 试 : 
$ ./TwitBase.py list 
<User: TheRealMT, Mark Twain, samuel@clemens .org> 
<User: GrandpaD, Fyodor Dostoyevsky, fyodor@brothers.net> 


<User: SirDoyle, Sir Arthur Conan Doyle, art@TheQueensMen.co.uk> 
<User: HMS Surprise, Patrick O'Brian, aubrey@sea.com> 


干 得 漂亮 ! 你 已 经 准备 好 了 ， 可 以 开始 用 Python 来 创建 HBase 应 用 








了 。 接 下 来 ， 我 们 将 研究 一 种 全 新 的 Java 语 言 客户 端 一 —asynchbase。 
6.5 asynchbase: 一 种 HBaseJava 客 户 端 


HBase 原生 Java 客户 端 是 完全 同步 的 。 当 你 的 应 用 通过 
HTableInterface 访问 HBase 时 ， 在 HBase 响 应 请 求 时 每 个 动作 都 会 短 时 间 
阻塞 你 的 应 用 线程 。 这 种 行为 常 名 不 能 令 人 满意 。 一 些 应 用 不 想 在 服务 
器 上 等 待 响 应 ， 和 希望 继续 执行 路 径 。 事 实 上， 在 服务 器 上 的 同步 等 待 对 
于 许多 面 癌 用 户 的 应 用 系统 是 很 不 利 的 。 

asynchbase Hal 是 另 一 种 HBase 客 户 端 ， 也 是 用 Java 编 写 的 。 它 是 完 


全 异步 的 ， 这 意味 痢 它 不 会 阻塞 调用 应 用 的 线程 。 它 优先 考虑 线程 安 
全 ， 并 且 它 的 客户 端 API 是 为 多 线程 应 用 的 用 途 而 设计 的 。 把 asynchbase 
和 原生 HBase 客 户 端 比较 来 看 ，asynchbase 的 发 起 人 致力 于 让 客户 端 性 
能 最 大 化 并 维护 一 组 性 能 基准 上 。 

asynchbase 在 叫做 async Hal 的 异步 库 上 创建 。 它 效仿 了 Python 
Twisted H9] 库 的 异步 处 理 组 件 。async 允许 你 通过 针对 异步 运算 的 链 式 
连续 动作 (chaining successive action ) 建立 并 行 数据 处 理 管道 。 对 这 些 
项 目 核心 概念 的 解释 超出 了 本 市 的 范围 。 我 们 提供 给 你 一 些 基本 原理 ， 
如 果 你 要 认真 使 用 asynchbase， 建 议 你 自己 研究 有 关 项 目 和 概念 。 异 步 
编程 相对 比较 少见 ， 可 能 不 大 直观 易 懂 。 当 设计 一 种 需要 在 后 端 处 理 海 
量 数据 的 面 癌 用 户 的 应 用 系统 时 ， 它 是 一 种 不 同 的 思考 方式 ， 但 也 是 一 
种 重要 的 编程 方式 。 

asynchbase 的 主要 有 名 的 部 署 是 OpenTSDB ， 后 面 章节 会 详细 介绍 
这 个 应 用 。asynchbase 和 OpenTSDB 都 是 由 同一 个 用 户 社区 编写 和 维护 
的 。 这 个 社区 和 广大 的 HBase 社 区 比较 起 来 小 得 多 。 和 任何 开源 项 目 一 
样 ， 当 采用 一 个 还 没有 达到 临界 用 户 数 量 的 项 目 时 建议 齐 慎 一 些 。 即 便 
如 此 ，asynchbase 的 人 气 正 在 上 升 。 

考虑 选择 asynchbase 的 另 一 个 重要 的 理由 是 多 版 本 文 持 。HBase 发 
行 版 采用 “大 版 本 .小 版 本 .补丁 ”形式 的 版 本 号 来 标记 。 本 书 使 用 HBase 版 
本 0.92.x， 或 者 说 是 大 版 本 0， 小 版 本 92， 和 一 个 未 特别 指定 的 补丁 。 妆 
使 用 原生 HBase 客 户 端 时 ， 客 户 端的 大 版 本 和 小 版 本 .29 必须 和 集群 的 
大 版 本 和 小 版 本 相 匹 配 。 你 可 以 使 用 一 个 0.90.3 的 客户 端 访问 任何 0.90.x 
的 集群 ， 但 是 它 不 能 和 一 个 0.92.x 的 集群 兼容 。 另 一 方面 ，asynchbase 客 
户 端 文 持 上 自从 0.20.4《〈 在 2010 年 年 中 发 布 ) 以 来 的 所 有 HBase 版 本 。 这 
意味 着 你 的 客户 端 代码 和 集群 部 署 完全 人 解 粮 。 当 考虑 到 客户 病 代 码 不 能 
像 集群 一 样 频繁 升级 时 ， 这 是 一 个 巨大 的 好 处 。 

















本 例 中 将 使 用 asynchbase 客 户 端 创建 另 一 种 访问 TwitBase 的 users 表 
的 客户 端 。 访 项 目的 最 终 代 码 可 以 在 GitHub 上 得 到 ， 人 参见 


https:/github.com/hbaseinaction/twitbase-async。 
6.5.1 创建 一 个 asynchbase 项 


开始 你 需要 创建 一 个 新 的 Java 工 程 。 最 简单 的 创建 项 目的 方法 是 使 
用 Maven 原 型 。Maven 原 型 是 预先 建立 好 的 、 提 供 基 本 Maven 项 目 素材 
的 项 目 模板 。 对 于 这 个 项 目 我 们 使 用 最 简单 的 quickstart 原 型 。 你 可 以 跟 
着 来 创建 这 个 项 目 。 

可 以 使 用 archetype:generate 命 令 创 建 项 目 结构 : 


$ mvn archetype:generate \ 
-DarchetypeGroupId=org.apache .maven .archetypes \\ 
-DarchetypeArtifactId=maven-archetype-quickstart \ 
-DgroupId=HBaseIA \ 
-DartifactId= 和 async \ 
-Dversion=1.0. 


在 Maven 下 载 了 记 有 缺失 的 依赖 项 后 ， 它 会 提示 你 确认 人 参数。 点 击 
回 车 ， 让 它 继续 。 这 会 在 当前 目录 下 创建 一 个 叫做 twitbase-async 的 目 
录 。 该 目录 下 有 一 个 基本 的 “hello world” 命 令 行 应 用 。 

下 面 要 做 的 事情 是 把 asynchbase 添 加 到 该 项 目 里 作为 一 个 依赖 项 。 
在 项 目 项 层 目 录 里 有 一 个 叫做 pom.xml 的 文件 在 管理 这 个 Maven 项 
目 。 编 辑 生 成 的 pom.xml， 给 <dependencies> 属 性 块 增加 几 个 新 的 


<dependency> 条 目 : 














<dependencies> 

<dependency> 
<groupId>org.hbase</groupId> 
<artifactIid>asynchbase</artifactId> 
<version>1.3.1</version> 

</dependency> 

<dependency> 
<groupId>org.slf4j</groupId> 
<artifactId>slf4j-api</artifactId> 
<version>1.6.6</version> 

</dependency> 

<dependency> 
<groupId>org.slf4j</groupId> 
<artifactIid>slf4j-simple</artifactIid> 
<version>1.6.6</version> 

</dependency> 


</dependencies> 

让 我 们 也 把 maven-assembly-plugin 添加 到 pom.xml 文 件 。 这 会 让 你 
可 以 创建 一 个 包含 该 项 目 所 有 依赖 项 的 JAR 包 ， 简 化 AsyncTwitBase 应 
用 启动 。 添 加 一 个 新 的 <build> 属 性 块 到 <project>: 


BEGIeGE 5 ww 
<build> 
<plugins> 
<plugin> 
<artifactId>maven-assembly-plugin</artifactId> 
<version>2.3</version> 
<executions> 
<execution> 
<id>jar-with-dependencies</id> 
<phase>package</phase> 
<goals> 
<goal>single</goal> 
</goals> 
<configuration> 
<descriptorRefs> 
<descriptorRef>jar-with-dependencies</descriptorRef> 
</descriptorRefs> 
<appendAssemblyId>false</appendAssemblyId> 
</configuration> 


</execution> 
</executions> 
</plugin> 
</plugins> 
</build> 
</project> 
现在 该 确认 一 切 是 否 正常 工作 了 。 继 续 往 前 推进 ， 用 下 面 的 命令 编 
译 和 运行 应 用 。 你 应 该 看 到 下 面 的 输出 信息 


$ mvn package 

[INFO] Scanning for projects.. 

[INFO] 

[INFO] --------------------------------------------------------------- 


[INFO] ------ 


[INFO] ------- 
[INFO] BUILD SUCCESS 

[INFO] ------- 
[INFO] Total time: 12.191s 


$ java -cp target/twitbase-async-1.0.0.jar HBaseIA.App 
Hello World! 


现在 你 的 项 目 准 备 好 了 ， 可 以 开始 使 用 asynchbase 了。 





让 我 们 创建 一 个 为 系统 里 所 有 用 户 生 成 随机 密码 的 应 用 。 如 果 你 的 
TwitBase 部 署 经 历 过 一 次 安全 入 侵 ， 你 就 会 用 到 这 种 应 用 。 你 打算 让 应 
用 扫描 users 表 里 的 所 有 用 户 ， 获 取 用 户 密 码 ， 并 且 基 于 旧 和 密码 生成 一 个 
新 密码 。 你 也 打算 让 应 用 通知 受到 安全 入 侵 的 用 户 ， 通 知 他 们 如 何 重新 
取 回 他 们 的 账户 。 你 可 以 使 用 async 的 Deferred 对 象 和 Callback 对 象 通 过 
链 式 连续 操作 完成 上 述 工 作 。Callback 链 的 工作 流 如 图 6-3 所 示 。 

在 一 个 Deferred 实 例 上 加 上 Callback 实 例 把 连续 的 步骤 链 式 连接 在 一 
起 。 可 以 使 用 Deferred 类 提供 的 addCallback 方法 组 来 做 到 这 一 点 。 也 
可 以 增加 Callback 来 处 理 错 误 情 况 ， 如 同 你 在 步骤 4b 中 看 到 的 。 
Errback 是 和 用 在 Twisted Python 库 里 的 专 有 名 词 一 致 的 术语 ，async 负 
贡 调 用 这 些 Errback。 调 用 这 个 关联 的 Deferred 实 例 上 的 join(0) 方 法 可 以 得 
到 Callback 链 的 最 终结 果 。 如 果 该 Deferred 实例 完成 了 处 理 任 务 ， 调 用 
join(long timeout) 方 法 会 立即 返回 一 个 结果 。 如 果 该 Deferred 实 例 的 
Callback 链 仍 在 处 理 过 程 中 ， 当 前 线程 会 阻塞 ， 直 到 该 Deferred 实例 完 
成 任务 或 者 超时 (timeout〉 失 效 ( 以 毫秒 为 单位 〉。 
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KeyValue 布尔 型 值 G) 格式 化 

rowkey:TheRealMT Put 状 态 oe 错误 消息 

info:password:abc123 UpdateFailed String 消 息 
Exception 


1 扫描 users 表 的 全 部 行 。 每 个 用 户 生 成 一 个 KeyValue。 
2 基于 旧 密 码 计算 生成 一 个 新 密码 ， 并 给 HBase 发 送 一 个 Put。 
3 解释 Put 响 应 信息 ， 要 么 成 功 要 么 失败 
4 根据 响应 信息 的 结果 格式 化 一 条 消息 。 
5 发 送 通 知 消息 ， 然 后 返回 true 
图 6-3 使 用 Callback 建 立 数据 处 理 管道 。 每 一 步 得 到 上 一 步 的 输出 信 
已 ， 处 理 该 信息 ， 然 后 发 送 给 下 一 人 

带 着 新 收获 的 关于 async 数 据 处 理 管 道 ee 世道 的 大 致 思 
路 ， 让 我 们 开始 创建 这 种 管道 。 

1， 异 步 的 HBase 客 户 端 

asynchbase 的 主 入 口 是 HBaseClient 类 。 它 负责 管理 与 HBase 集 群 的 
交互 。 它 的 责任 类 似 于 原生 客户 问 的 HTablePool 和 HTableInterface 的 联 
合体 。 

你 的 应 用 只 需要 一 个 HBaseClient 实 例 。 与 HIableInterface 很 像 ， 你 
需要 在 使 用 结束 后 确保 关闭 它 。 如 果 使 用 原生 客户 端 ， 你 会 这 么 做 : 
HTablePool pool = new HTablePool(...); 
HTableInterface myTable = pool.getTable ("myTable"), 
// application code 
myTable.close(); 
pool.closeTablePool ("myTable"),，; 

在 asynchbase 里 ， 你 应 该 这 样 做 : 


final HBaseClient client = new HBaseClient ("localhost'"), 
// application code 
client.shutdown() .joinUninterruptibly(); 


这 段 代 码 创 建 了 一 个 访问 本 机 《〈localhost) 管理 的 HBase 的 
HBaseClient 实 例 。 然 后 关闭 这 个 实例 ， 并 且 阻 塞 当 前 线程 ， 直 到 
shutdown0) 方 法 完成 。 在 这 里 必须 等 待 shutdown() 完 成 ， 以 确保 所 有 等 待 
的 RPC 请 求 被 完成 并 且 该 线程 池 在 应 用 退出 前 被 正确 处 理 了 。 
shutdown() 返 回 Deferred 类 的 一 个 实例 ， 这 个 Deferred 实 例 代 表 了 在 男 一 
个 线程 上 执行 的 操作 。 通 过 调用 该 Deferred 实例 上 的 join 方法 组 来 实现 
等 等 。 因 为 你 要 确保 在 结束 时 客户 端 资源 被 清理 干净 ， 所 以 在 这 里 调用 
joinUninterruptibly0) 方 法 。 注 意 ， 如 果 在 调用 joinUninterruptiblyO 实 现 的 
等 待 过 程 中 你 的 线程 被 中 断 ， 它 仍然 会 被 标记 为 被 中 断 。 

你 将 使 用 这 个 客户 问 实 例 来 创建 一 个 扫描 器 〈Scanner) 。 这 个 
asynchbase Scanner 的 使 用 方法 类 似 于 你 已 经 熟悉 的 ResultsScanner。 如 下 
所 示 ， 在 users 表 上 创建 一 个 Scanner， 并 且 把 它 的 输出 结果 限定 在 
info:password 列 : 
final Scanner scanner = client .newScanner ("users'"), 
scanner.setFamily("info"); 
scanner.setQualifier ("password"); 

使 用 这 个 Scanner 实 例 ， 通 过 调用 nextRows0 方 法 遍历 表 里 的 行 。 就 
像 这 个 库 里 其 他 的 异步 操作 一 样 ，nextRows0O 返 回 一 个 Deferred 实 例 。 

和 原生 扫描 器 类 似 ， 你 可 以 给 nextRows0 传 递 一 个 数字 来 要 求 每 页 返回 
指定 数量 的 结果 。 为 了 强调 这 个 应 用 异步 的 特点 ， 让 我 们 把 扫描 结果 限 
定 为 每 页 一 行 。 

在 真正 的 应 用 系统 里 不 要 这 样 做 ! 

把 扫 摘 器 限定 为 每 次 请 求 输出 一 行 会 大 大 降低 应 用 的 性 能 ， 我 们 这 
样 做 的 唯一 原因 是 把 触发 故障 情况 的 机 会 放 到 最 大 。 本 节 后 面 你 会 明白 
我 们 的 意思 。 




















每 个 返回 行 包含 它 的 单元 列表 。 这 些 单元 用 KeyValue 类 的 实例 来 
代表 。 为 了 过 历 返 回 行 的 页 面 ， 你 需要 循环 过 有 历 一 组 KeyValue 实 例 列 
表 ， 如 下 所 示 : 


ArrayList<ArrayList<KeyValue>> rows = null; 
while ((rows = scanner.nextRows (1) .joinUninterruptibly()) != null) 1 
for (ArrayList<KeyValue> row : rows) { 
J 
} 
} 








和 调用 shutdown(0 方 法 一 样 ， 这 段 代 码 阻 蹇 了 当前 线程 ， 直 到 得 到 
所 有 扫描 结果 。 倘 知 你 的 兴趣 在 于 保持 行 的 次 序 ， 那 么 异步 扫描 这 些 行 
没有 多 大 意义 。 通 过 联结 每 个 Deferred 实例 ， 你 把 扫描 结果 提取 到 
rows 变量 里 。 解 析 这 些 扫 朱 结果 的 做 法 类 似 于 在 原生 客户 端 里 使 用 
KeyValue 对 象 的 做 法 。 这 是 状态 图 的 第 1 步 ， 如 图 6-4 所 示 。 





KeyValue 
rowkey:TheRealMT 
info:password:abc123 


图 6-4 第 1 步 是 扫描 users 表 里 的 所 有 行 。 每 个 用 户 生 成 一 个 KeyValue 


实例 
代码 如 下 所 示 : 
KeyValue kv = row.get(0) ; | 
byte [] expected = kv.value(); 4 | 密码 


String userId = new String(kv.key()); < 一 
获取 用 户 ID 
PutRequest put = new PutRequest ( 
"users".getBytes(), kv.key(), kv.family(), 基于 旧 密 码 存 
kv.qualifier(), mkNewPassword (expected)); 储 新 密 公 


该 扫描 器 被 限定 为 只 返回 info:password 列 ， 所 以 你 知道 每 个 结果 行 


只 有 一 个 KeyValue 实 例 。 你 得 到 这 个 KeyValue 实 例 ， 取 出 和 你 有 关 的 数 
据 。 对 于 这 个 例子 ， 旧 密码 用 来 做 新 密码 的 输入 参数 ， 所 以 把 旧 密 码 传 
递 给 mkNewPassword() 方 法 。 然 后 创建 一 个 新 的 Put 实 例 ， 在 这 里 
asynchbase 调 用 了 一 个 PutRequest 实 例 ， 用 来 更 新 用 户 的 密码 。 最 后 一 步 
是 构建 一 个 Callback 链 ， 并 且 把 它 附加 到 PutRequest 调 用 上 、 

到 现在 为 止 你 已 经 实现 了 图 6-3 里 的 第 1 步 的 全 部 和 第 2 步 的 大 部 
分 。 在 你 开始 链接 Callback 之 前 ， 让 我 们 编写 几 个 方法 来 帮助 你 观察 运 
行 中 的 异步 应 用 。 

2. 开发 一 个 异步 应 用 

异步 应 用 的 开发 和 调试 是 很 复杂 的 ， 所 以 你 要 为 成 功 运 行 做 点 儿 准 
备 。 第 一 件 事 情 是 输出 帝 有 关联 线程 的 调试 语句 。 为 此 ， 你 将 使 用 日 志 
库 SLF4J， 这 是 被 asynchbase 使 用 的 同一 个 日 志 库 。 如 下 所 示 ， 实 现 你 需 
要 的 日 志 : 
static final Logger LOG = LoggerFactory.getLogger (AsyncUsersTool .class); 

为 了 有 助 于 研究 这 段 代 码 的 异步 特点 ， 有 必要 介绍 一 下 系统 的 模拟 
延迟 。latency() 方 法 会 强迫 线程 睡眠 来 不 时 地 推迟 处 理 任 务 : 

static void latency() throws Exception { 
if (System.currentTimeMillis() % 2 == 0) { 
LOG.info("a thread is napping..."); 
Thread.sleep(1000).， 
} 
} 

你 还 可 以 侦 尔 调用 entropy0 方 法 引入 临时 故障 来 完成 同样 的 模拟 延 

壕 ; 





static boolean entropy (Boolean val) { 


© 


if (System.currentTimeMillis() % 3 == 0) { 
LOG.info("entropy strikes!"); 
return false; 


} 


return (val == DLL ?了 Boolean.TRUE * val; 


} 
你 将 在 每 个 Callback 的 开始 和 结束 时 调用 latency() 来 延缓 一 下 处 理 。 


在 第 2 步 产生 的 结果 上 调用 entropy0， 以 便 你 可 以 练习 第 4b 步 提供 的 错 
误 处 理 罗 和 辑 。 现 在 该 为 剩 下 的 步骤 实现 Callback 了 。 

3. 使 用 CALLBACK 的 链 式 连续 动作 

数据 处 理 管道 里 的 第 3 步 是 解释 送 往 HBase 的 PutRequest 生 成 的 啊 
应 。 这 一 步 如 图 6-5 所 示 。 
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图 6-5 第 3 步 是 解释 Put 响 应 ， 要 么 成 功 要 么 失败 。 

你 可 以 通过 实现 async 的 Callback 接口 做 到 这 一 点 。 该 实现 从 
HBase 啊 应 里 接收 到 一 个 布尔 型 值 Boolean) ， 然 后 生成 一 个 
UpdateResult 实例 ， 这 是 一 个 专门 针对 你 的 应 用 的 对 象 。UpdateResult 类 
很 简单 ， 只 是 一 个 数据 包 : 


static final class UpdateResult | 
public String userId; 
public boolean success; 





当 PutRequest 失败 或 者 entropy0O 出 现时 ， 第 3 步 还 会 抛 出 一 个 
UpdateFailedException 异常 。async 负 员 寻找 异常 (Exception) ， 要 人 么 
是 Deferred 和 Callback 实 例 抛 出 来 的 ， 要 么 是 Deferred 和 Callback 实 例 返 
回 的 ， 来 触发 错误 处 理 callback 链 。 因 为 你 自己 实现 异常 ， 所 以 你 可 以 


在 异常 里 打包 一 些 内 容 。 看 起 来 像 下 面 这 样 : 
static final class UpdateFailedException extends Exception 
public UpdateResult result; 





public UpdateFailedException(UpdateResult r) { 
this.result = rk; 


} 


| 现在 你 可 以 实现 Callback 来 处 理 第 3 步 。 这 个 类 的 职责 是 把 异步 响 
应 转换 为 应 用 专用 的 数据 类 型 。 你 可 以 称 它 为 InterpretResponse。 它 有 
一 个 构造 函数 来 传递 用 户 ID; 这 样 在 收 到 啊 应 时 你 可 以 知道 自己 正在 
处 理 哪个 用 户 。 这 上段 代码 的 关键 部 分 在 UpdateResult call(Boolean 
response) 方 法 里 。 该 方法 在 启动 和 停止 时 调用 latency()。 它 也 从 HBase 
接收 到 啊 应 〈response) ， 然 后 传 入 entropyO0。 这 样 做 纯粹 是 为 了 好 理 
解 。 真 正 的 工作 在 于 接收 响应 (response) ， 然 后 要 么 构造 一 个 
UpdateResult 实 例 要 么 抛 一 个 UpdateFailedException 异 常 。 无 论 哪 种 情 
况 ， 都 没有 太 多 可 做 的 。 在 真正 的 工作 代码 里 ， 你 可 以 假想 这 里 会 执行 
任意 复杂 的 操作 : 








static final class InterpretResponse 
implements Callback<UpdateResult, Boolean> { 


private String userId; 


InterpretResponse (String userId) { 
this.userId = userId; 


} 


public UpdateResult call (Boolean response) throws Exception 1 
latency(); 


UpdateResult r = new UpdateResult () :; 
r.userId = this.userId; 
r.success = entropy (response); 
if (!r.success) 
throw new UpdateFailedException(r); 


latency () ; 
return rr; 





InterpretResponse 是 本 例 中 最 复杂 的 Callback， 所 以 如 果 到 现在 你 仍 
然 跟 得 上 ， 就 应 该 不 会 有 问题 了 。 这 个 Callback 要 么 成 功 执行 转换 ， 要 
么 检测 到 错误 并 抛 异 常 。 无 论 哪 种 情况 ， 下 一 步调 用 哪个 Callback 的 决 
定 留 给 了 async。 当 考虑 这 些 数据 处 理 管道 时 这 是 一 个 很 重要 的 概念 。 
链 中 每 一 步 彼此 之 间 一 无 所 知 。 请 注意 ，InterpretResponse 的 类 型 签名 
实现 了 Callback<UpdateResult, Boolean>。 这 些 泛 型 符合 call0) 方 法 的 签 
名 。 连 接 第 3 步 和 第 4 步 的 唯一 的 东西 是 它们 之 间 以 类 型 签名 形式 的 约 
定 。 











至 于 下 一 步 ， 你 首先 实现 成 功 转换 的 情况 ， 即 状态 图 的 第 4a 步 。 为 
上 下 文 需要 ， 第 4a 步 和 第 4b 步 如 图 6-6 所 示 。 
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图 6-6 第 4a 步 和 第 4b 步 根据 响应 的 结果 生成 一 条 需要 发 送 的 消息 
这 一 步 得 到 第 3 步 生 成 的 UpdateResult， 然 后 把 它 转 换 成 一 个 字符 串 
(String) 消息 ， 也 许 通过 电子 邮件 发 送 给 用 户 ， 也 许 在 什么 地 方 更 新 
一 下 有 日志。 因此 ， 由 Callback<String,UpdateResult> 实 现 第 4a 步 。 在 


ResultToMessage 上 调用 它 : 
static final class ResultToMessage 
implements Callback<String, UpdateResult> { 


public String call (UpdateResult r) throws Exception { 
latency () ; 
String fmt = "password change for user %s successful.", 
latency () ; 
return String.format (fmt, r.userId),; 


你 在 call0 方 法 开始 和 结束 时 又 调用 了 latency(); 否则 ， 这 里 什么 有 
趣 的 东西 都 没有 了 。 这 个 消息 的 构成 很 简单 ， 看 起 来 对 用 户 也 很 合适 。 
也 没有 什么 异常 可 以 抛 出 ， 所 以 你 不 用 为 这 一 步 考 虑 Errback 链 。 








第 4b 步 定 义 的 Errback 和 第 4a 步 中 的 Callback 类 似 。 它 也 被 实现 
为 一 个 Callback， 这 次 使 用 String 和 UpdateFailedException 作为 参数 。 
处 理 方 式 几 乎 相同 ， 除 了 它 是 从 Exception 接 收 用 户 ID 而 不 是 从 
UpdateResult: 


static final class FailureToMessage 
implements Callback<String, UpdateFailedException> { 


public String call (UpdateFailedException e) throws Exception 1 
latency () ; 
String fmt = "%s, your password is unchanged!",; 
latency () ; 
return String.format (fmt, e.result .userId); 


ResultToMessage 和 FailureToMessage 都 生成 了 一 个 字符 串 作 为 输 
出 。 这 意味 着 它们 可 以 在 最 后 第 5 步 被 链接 到 同一 个 Callback 实 例 上 。 第 
5 步 由 SendMessage 处 理 ， 是 Callback<Object, String> 的 一 个 实现 ， 如 图 6- 
7 所 示 。 
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图 6-7 第 5 步 友 送 明 知 消 居 
SendMessage 应 该 要 么 成 功 ( 此 时 返回 true〉 要 么 抛 出 一 个 异常 
SendMessageFailedException。 关 于 失败 异常 没有 什么 特殊 的 ， 本 例 中 内 
是 为 了 明确 表明 它 是 应 用 特有 的 。SendMessage 看 起 来 像 下 面 这 样 : 


static final class SendMessage 
implements Callback<Boolean, String> { 


public Boolean calll(String s) throws Exception 1{ 
latency(),; 
i entropy (nally)) 
throw new SendMessageFailedException().; 
LOG.info(s); 
latency () ; 
return Boolean .TRUE ; 


} 


再 一 次 ， 我 们 使 用 latency0 和 entropy0) 来 让 事情 变 得 更 有 趣 。 这 上段 
代码 要 么 发 送 消 息 ， 要 么 抛 出 异常 。 本 例 中 ， 没 有 使 用 Errback 链 接 到 数 
据 处 理 管道 ， 所 以 这 些 错 误 需 要 在 客户 端 代 人 码 里 处 理 。 完 成 数据 处 理 管 
道 实现 后 ， 让 我 们 重新 回 到 使 用 扫描 器 的 代码 。 

4. 接 通 数据 管道 

前 面 在 最 后 一 次 看 到 用 户 应 用 时 ， 它 正在 从 扫描 器 里 读 取 行 ， 并 且 
正在 创建 PutRequest 对 象 来 初始 化 数据 处 理 管道 ， 本 质 上 就 是 状态 网 里 











的 第 1 步 。 最 后 一 件 要 处 理 的 事情 是 把 这 些 Put 送 到 HBase ， 并 且 把 响 
应 传递 给 Callback 链 ， 如 图 6-8 所 示 。 


© 













设置 


新 密码 






KeyValue 布尔 型 值 
rowkey:TheRealMT Put 啊 应 


info:password:abc123 
图 6-8 第 2 步 根据 旧 和 密码 生成 一 个 新 密码 ， 然 后 发 送 一 个 Put 给 HBase 


这 是 你 最 后 用 到 Deferred 实 例 的 地 方 ! 对 于 这 个 例子 而 言 ， 你 可 以 
使 用 Deferred<Boolean>HBaseClient.compareAndSet(PutRequest put, byte[] 
expected) 而 不 是 put0 来 简化 Callback 链 的 解释 。 这 个 方法 是 putO 的 原子 
版 本 。compareAndSet() 返 回 一 个 Deferred 实 例 ， 在 被 join0 联 结 后 ， 该 实 
例会 返回 一 个 布尔 型 值 (Boolean) 。 这 是 链接 Callback 的 入 口 。 这 个 链 
接 如 下 : 





执行 第 2 步 
Deferred<Boolean> d = client.compareAndSet (put, expected) < 上 一 附加 上 第 3 步 
.addCallback (new InterpretResponse (userId)) + 
.addCallbacks (new ResultToMessage(), new FailureToMessage()) < 一 附加 上 第 4a 
.addCallback (new SendMessage i 要 
RR 9e0) 人 | 附加 上 第 5 步 步 和 第 4b 步 


每 个 addCallback() 的 连续 调用 返回 相同 的 Deferred 实例 ， 但 是 它 的 
类 型 会 被 更 新 ， 以 符合 附加 的 Callback 的 返回 类 型 。 所 以 ， 执 行 第 2 步 
会 返回 一 个 Deferred<Boolean>， 在 第 3 步 链接 Callback 后 它 变 为 
Deferred<UpdateResult>。 第 4a 步 和 第 4b 步 的 链接 使 用 addCallbacks() 完 
成 ， 注 意 带 有 一 个 s。 这 一 步 返 回 一 个 Deferred<String>， 这 是 由 成 功 情 
况 下 的 返回 类 型 所 赋予 的 类 型 。async 里 的 错误 情况 总 是 被 归 类 为 一 个 
异常 ， 所 以 这 种 情况 不 需要 在 Deferred 里 定义 。 第 5 步 把 它 转换 成 一 个 
Deferred<Boolean>， 这 是 最 终 被 应 用 使 用 的 类 型 。 

扫描 结果 里 的 每 行 都 有 一 个 对 应 的 Deferred<Boolean>， 你 可 能 想 
看 到 它 的 执行 是 否 被 完成 。 看 到 每 行 完整 Callback 链 的 结果 的 唯一 办 法 
是 收集 最 终 的 Deferred<Boolean> 实 例 并 join0 联 结 它们 。 这 和 前 面 的 代 
人 码 一 样 ， 只 是 多 了 收集 Deferred<Boolean> 实 例 的 记 账 部 分 : 


ArrayList<Deferred<Boolean>> workers 
= new ArrayList<Deferred<Boolean>>(); 











while ((rows = scanner.nextRows(1) .joinUninterruptibly()) != null) { 
for (ArrayList<KeyValue> row : rows) { 
A gam 


Deferred<Boolean> d= ...; 
workers.add(d); 
} 
} 


注意 ，workers 列表 保持 了 行 被 生成 时 的 次 序 。 因 为 在 使 用 定制 的 
UpdateResult 和 UpdateFailedException 类 时 你 已 经 小 心地 了 解 了 必要 的 内 
容 ， 对 于 这 个 例子 这 并 不 是 特别 有 用 。 你 可 以 轻易 地 在 这 个 层次 积累 状 
态 ， 例 如 ， 创 建 一 个 从 用 户 ID 到 Deferred<Boolean> 结 果 的 映射 

(Map) 。 因 为 你 在 本 例 中 对 于 特定 的 结果 没有 兴趣 ， 上 所 以 你 把 所 有 
Deferred 实例 联结 为 一 个 组 。 最 后 一 步 是 调用 join() 和 办 积 处 理 结果 。 
Deferred<ArrayList<Object>> Q = Deferred.group (workers), 


try { 
Om 

} catch (DeferredGroupException e) { 
LOG.info(le.getCause() .GetMessage() ) ; 


} 











你 的 机 器 在 后 台 同 时 执行 它们 。 当 你 调用 join0 时 ，async 返 回 给 你 
每 个 put 操 作 的 处 理 链 的 结果 。 如 果 数 据 链 的 任何 组 件 在 处 理 过 程 中 抛 
出 或 者 返回 异常 (Exception〉 实 例 ， 那 么 它 抛 出 异常 让 你 在 这 里 捕获 。 
这 里 的 Deferred 封 狼 了 所 有 单个 Deferred 实 例 ， 它 把 这 些 异 常 封 装 在 
DeferredGroupException 里 。 可 以 调用 getCause0 打 开 它 ， 碍 看 底层 的 错 
误 。 

为 了 圆满 完成 所 有 事情 ， 让 我 们 给 命令 行 应 用 起 个 有 意义 的 名 字 。 
我 们 把 文件 src/main/java/HBaselA/App.java 重 新 命名 为 像 
AsyncUsersTool.java 这 样 的 名 字 ， 并 把 它 转 移 到 一 个 合适 的 软件 包 文 件 
路 径 ， 然 后 更 新 类 名 字 和 软件 包 。 最 终 的 AsyncUsersTool 如 代码 清单 6-4 
所 示 。 

代码 清单 6-4 完整 的 TwitBase 的 asynchbase 客户 端 : 
AsyncUsersTool 











package HBaselIA.TwitBase; 


好 


static 
static 
static 
static 


public 


final byte[] 
final byte[] 
final byte[] 
final byte[] 


statice final 


"usertool action 
" help - print this message and 


TABLE NAME = 
INFO_FAM = 
PASSWORD COL = 
EMAIL COL = 


String usage = 


NE 于 


,| 省 略 导 入 部 分 


"users" .getBytes () ; 
"info".getBytes(); 
"password" .getBytes () ; 
"email" .getBytes () ; 


exit.\n" + 


" update - update passwords for all installed users.\n"; 
static final Object lock = new Object (); 


static void println(String msg) { 


synchronized (lock) { 把 与 操作 同步 到 线 
System.out .println (msg); 程 的 标准 输出 
} 
} 基于 旧 密码 
static byte[] mkNewPassword(byte[] seed) { 生成 新 密码 
// 
} 
static void latency() throws Exception { 给 示例 应 用 





if (System.currentTimeMillis() % 2 == 0) { 
println("a thread is napping..."); 
Thread.sleep(1000);，; 


} 


增加 事件 


} 


static boolean entropy (Boolean val) { 
if (System.currentTimeMillis() % 3 == 0) { 
println("entropy strikes!"),; 
return false; 


给 示例 应 用 
增加 事件 


} 


return (val == null) ? Boolean.TRUE : val; 


} 


static final class UpdateResult { 4— 
public String userId; 
public boolean success; 


} 


static final class UpdateFailedException extends Exception { | 
private static final long serialVersionUID = 1L; 
public UpdateResult result; 


; ; 、 应 用 特有 的 
publie UpdateFailedException (UpdateResult r) { 容器 和 异常 
this Yesult = TY 
} 


} 


static final class SendMessageFailedException extends Exception { <— 
private static final long serialVersionUID = 1L; 





public SendMessageFailedException() { 
super ("Failed to send message!"),; 
} 


} 把 Deferred<Boolean> 
static final class InterpretResponse 转换 为 Deferred 
implements Callback<UpdateResult, Boolean> { <UpdateResult> 


private String userId; 


InterpretResponse (String userId) { 
this.userId = userId; 


} 


public UpdateResult call (Boolean response) throws Exception { 
latency (); 


UpdateResult r = new UpdateResult () ; 


r.userId = this.userId; 宙 
r.success = entropy (response); 在 例外 情况 时 抛 出 异常 ; 
if (!r.success) 让 async 处 理 剩 下 的 事情 
throw new UpdateFailedException(r); 

latency (); 
return r; 

} 

@Override 


public String tostring() { 
return String.format ("InterpretResponse<%s>", userId),; 
} 


} 把 Deferred 
static final class ResultToMessage <UpdateResult> 转 换 为 
implements Callback<String, UpdateResult> { Deferred<String> 
public String call(UpdateResult r) throws Exception { 
latency(); 
String fmt = "password change for user %s successful.",; 
latency(); 


return String.format (fmt, r.userId); 


} 


@Override 
public String toString() { 
return "ResultToMessage"; 


} 把 Deferred<UpdateFailedException> 转 换 为 


Deferred<String> 


} 


static final class FailureToMessage 
implements Callback<String, UpdateFailedException> { 





public String call (UpdateFailedException e) throws Exception { 


latency(); 
string fmt = "%s, your password is unchanged!"; 


latency(); 
return String.format (fmt, e.result .userId); 


} 


@Override 
public String tostring() { 
return "FailureToMessage",; 


} 
} 


static final class SendMessage 把 Deferred<string> 
implements Callback<Boolean, String> { 4 一 转换 为 Deferred 
<Boolean> 


public Boolean call(String s) throws Exception { 


latency(); 
if (entropy (null)) 


throw new SendMessageFailedException(); 
println(es)y 
latency () ; 
return Boolean.TRUE; 


} 


@Override 

public String toString() { 
return "SendMessage",; 

} 


} 


static List<Deferred<Boolean>> doList (HBaseClient client) 
throws Throwable { 
final Scanner scanner = client .newScanner (TABLE NAME); 
scanner.setFamily (INFO_FAM); 
scanner.setQualifier (PASSWORD COL); 创建 扫描 器 ， 限 定 为 


ArrayList<ArrayList<KeyValue>> rows = null; info:password 列 


ArrayList<Deferred<Boolean>> workers 
= new ArrayList<Deferred<Boolean>>(); 

while ((rows = scanner.nextRows(1) .joinUninterruptibly()) != null) { 
println("received a page of users."); 


for (ArrayList<KeyValue> row : rows) { a 
KeyValue kv = row.get (0); 解析 单个 行 ; 
byte [] expected = kv.value(); 生成 PutRequest 
String userId = new String(kv.key()); 
PutRequest put = new PutRedquest ( 

TABLE NAME, kv.key(), kv.family(), 


kv.qualifier(), mkNewPpassword (expected) ) ; 

Deferred<Boolean> d = client.compareAndSet (put, expected) 、 
.addCallback (new InterpretResponse (userId)) 接 通 
.addCallbacks (new ResultToMessage(), new FailureToMessage()) Callback 
.addCallback (new SendMessage () ) ; 链 

workers.add(d); 收集 生成 的 

} Deferred 实例 


} 


return workers; 


public static void main(String[] args) throws Throwable { 
if (args.length == || "help" .equals(args[0])) { 
System.out .println (usage); 
System.exit (0); 


} 


final HBaseClient client = new HBaseClient ("lJocalhost"),; 


if ("update".equals(args[0])) { 
for (Deferred<Boolean> d: doList(client)) { 
try { 
d.join(); 
} catch (SendMessageFailedException e) { 
println(e.getMessage ()); 


调用 join () 连接 
= 处 理 结果 


} 
} 


} 释放 连接 
client.shutdown() .joinUninterruptibly(); 资源 


} 
} 





最 后 一 步 是 配置 日 志 记 录 。 你 需要 如 此 处 理 以 便 能 够 查看 日 志 信 
晨 ， 尤 其 是 能 够 查看 哪 一 个 线程 在 执行 什么 工作 。 新 建 一 个 文件 


src/main/resources/simplelogger. properties， 包 含 以 下 内 容 : 
org.slf4j .simplelogger.showdatetime = false 
org.slf4]j .simplelogger.showShortLogname = true 


org.slf4j .simplelogger.1log.org.hbase.async = warn 
org.slf4j .simplelogger.10og.org.apache.zookeeper = warn 
org.slf4] .simplelogger.1og.org.apache.zookeeper.client = error 


大 功 告 成 ! 让 我 们 试 运行 一 下 。 
6.5.3 试 运行 


首先 确保 HBase 已 经 运行 ， 并 且 users 表 的 数据 已 经 到 位 。 如 有 必 
要 ， 请 查阅 第 2 章 。 就 像 TwitBase Java 项 目 一 样 ， 编 译 你 的 asynchbase 
客户 疹 应 用 : 


$ mvn clean Package 

[INFO] Scanning for projects... 

[INFO] 

[INFO] ------ 
[INFO] Building twitbase-async 1.0.0 

[INFO] ------- 





[INFO] ---------- 
[INFO] BUILD SUCCESS 
[INFO] ------- 


现在 你 可 以 调用 新 类 来 运行 该 应 用 : 


$ java -cp target/twitbase-async-1.0.0.jar \ 
HBaseIA.TwitBase.AsyncUsersTool update 

196 [main] INFO AsyncUsersTool - received a page of users. 

246 [client worker #1-1] INFO AsyncUsersTool - a thread is napping... 

1251 [client worker #1-1] INFO AsyncUsersTool - a thread is napping... 

2253 [main] INFO AsyncUsersTool - received a page of users. 

2255 [main] INFO AsyncUsersTool - received a page of users. 

2256 [client worker #1-1] INFO AsyncUsersTool] - a thread is napping... 

3258 [client worker #1-1] INFO AsyncUsersTool - a thread is napping... 

3258 [main] INFO AsyncUsersTool - received a page of users. 

4259 [client worker #1-1] INFO AsyncUsersTool - entropy strikes! 

4259 [client worker #1-1] INFO AsyncUsersTool - entropy strikes! 

4260 [client worker #1-1] INFO AsyncUsersTool - Bertrand91, your password 

is unchanged! 

4260 [client worker #1-1] INFO AsyncUsersTool - a thread is napping... 


工作 正常 ! 现在 你 有 了 一 个 可 运行 的 基础 ， 可 以 从 这 里 搭建 一 套 基 
于 HBase 的 异步 应 用 系统 。 


6.6 小 结 





部 署 HBase 的 决定 把 你 束缚 在 JVM 上， 至 少 在 服务 器 端 是 这 样 。 但 
是 这 个 决定 不 会 限制 你 的 客户 端 应 用 的 选择 。 为 了 管理 模式 迁移 ， 我 们 
建议 使 用 HBase Shell 进 行 脚本 编程 。 如 果 你 的 模式 迁移 特别 复杂 ， 或 者 
如 果 你 想 创建 一 个 ActiveRecord [2 风格 的 迁移 工具 ， 毫 无 疑问 ， 你 应 
该 研究 一 下 JRuby 库 ，HBase Shell 束 是 在 此 基础 上 创建 的 。 如 果 你 使 用 
Java， 我 们 建议 你 认真 考虑 asynchbase。 异 步 编程 可 能 是 有 些 挑 战 ， 但 
是 你 已 经 开始 学 习 HBase， 所 以 我 们 认为 你 可 以 应 对 它 。 

除了 JVM 之 外 ， 你 还 可 以 选择 REST 和 Thrift。 因 为 REST 除 了 HTTP 
客户 端 之 外 不 需要 什么 目标 语言 ， 所 以 很 容易 上 手 。 在 集群 上 局 动 
REST 服 务 也 很 简单 ， 它 甚至 能 够 适当 地 扩展 。 尽 管 REST 很 方便 ， 但 
Thrift 可 能 是 更 好 的 选择 。Thrift 提供 了 某 种 程度 上 与 语言 无 关 的 API 定 
义 ， 在 社区 里 比 REST 的 使 用 范围 更 广 。 像 往常 一 样 ， 这 样 的 客户 端 选 
择 决 定 最 好 是 具体 情况 具体 分 析 。 

注 释 
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19]. Tiatadl 是 供 ere ， 用 来 建立 非 阴 塞 上 理 程 链 ， Deferred 上 t 忆 档 
参见 : http://twistedmatrix.com/documents/current/core/howto/defer.html。 




















http://ar.rubyonrails.org/。 


一 和 


第 三 部 分 将 转 为 介绍 应 用 系统 实例 ， 让 你 领略 一 下 真实 的 HBase 应 
用 系统 是 什么 样子 。 第 7 章 将 深入 介绍 OpenTSDB， 这 是 一 种 基础 设施 
监控 应 用 系统 ， 补 设计 用 来 高 效 存 储 和 碍 询 时 间 序 列 数 据 。 在 第 8 草 
中 ， 你 将 看 到 HBase 如 何 应 用 于 地 理 空 间 信 息 数据 。 你 将 学 到 ， 当 实现 
多 维 空 间 信息 查询 时 ， 如 何 改变 HBase 的 模式 以 适应 多 维 空间 信息 数 
据 。 在 学 习 完 这 一 部 分 之 后 ， 你 束 为 从 头 开始 构架 上 自己 的 分 布 式 、 局 容 
错 、 基 于 HBase 的 数据 系统 做 好 了 准备 。 








本 章 涵 善 的 内 容 

加 使 用 HBase 作 为 一 种 在 线 时 间 序 列 数据 库 

量 上 时间 序列 数据 的 特殊 属性 

加 为 时 间 序 列 数据 设计 HBase 模 式 

加 使 用 复杂 行 键 来 存储 和 得 询 HBase 

本 章 我 们 希望 让 你 感受 一 下 基于 HBase 构 建 的 应 用 系统 是 什么 样 
子 。 学 习 一 种 技术 的 时 候 ， 还 有 比 直 接 看 看 如 何 使 用 它 来 解决 一 个 熟悉 
的 问题 更 好 的 办 法 吗 ? 与 其 继续 使 用 我 们 虚构 的 TwitBase 示例 ， 还 不 
如 直接 研究 一 个 已 经 在 使 用 的 应 用 系统 一 一 OpenTSDB。 我 们 的 目标 是 
器 你 演示 基于 HBase 的 应 用 系统 的 样子 ， 所 以 会 介绍 得 非常 详细 。 

基于 HBase 构 建 应 用 系统 与 基于 其 他 数据 库 有 什么 不 同 呢 ? 当 设 计 
HBase 模 式 时 主要 关心 什么 呢 ? 当 实 现 应 用 系统 代码 时 如 何 利 用 这 些 设 
计 呢 ? 这 些 是 我 们 在 本 章 贯 罕 始 终 将 要 回答 的 问题 。 到 本 草 结 束 时 ， 你 
会 很 好 地 理解 基于 HBase 搭建 应 用 系统 需要 什么 。 也 许 更 重要 的 是 ， 你 
将 深刻 理解 怎样 像 一 个 HBase 应 用 系统 设计 者 那样 思考 问题 。 

开始 阶段 ， 我 们 会 给 你 介绍 一 些 背 景 知 识 。 你 会 了 解 到 OpenTSDB 
是 什么 ， 以 及 它 解决 了 什么 挑战 。 然 后 我 们 剥 去 表层 ， 研 究 应 用 和 数据 
库 模 式 的 设计 。 随 后 ， 你 会 看 到 OpenTSDB 如 何 运 用 HBase。 你 会 看 到 
从 HBase 存 储 和 检索 数据 时 所 必需 的 应 用 逻辑 ， 以 及 如 何 使 用 这 些 数据 
生成 提供 给 用 户 的 信息 图 表 。 


7.1 OpenTSDB 概 述 

















OpenTSDB 是 什么 ? 下 面 是 直接 从 该 项 目 主页 上 
Cwww.opentsdb.net) 取 到 的 一 段 描述 : 

OpenTSDB 是 一 种 基于 HBase 来 构建 的 分 布 式 、 可 扩展 的 时 间 序 列 
数据 库 。OpenTSDB 可 以 用 来 处 理 一 种 通用 需求 : 存储、 索引 和 服务 从 
大 规模 计算 机 系统 《网 络 设备 、 操 作 系 统 、 应 用 程序 ) 采集 来 的 监控 指 
标 数 据 ， 并 且 使 这 些 数据 易于 访问 和 可 视 化 。 

因为 OpenTSDB 解决 了 基础 设施 监控 的 普遍 性 问题 ， 所 以 对 于 我 
们 这 本 注重 实战 的 书 而 言 它 是 一 个 了 不 起 的 项 目 。 如 果 你 部 署 过 生产 系 
统 ， 你 会 知道 基础 设施 监控 的 重要 性 。 如 果 你 没有 这 种 经 验 ， 也 不 要 担 
心 ， 我 们 会 告诉 你 的 。OpenTSDB 存 储 的 数据 是 时 间 序 列 〈time series ) 
数据 ， 这 也 是 一 个 有 趣 的 地 方 。 标 准 关 系 模 型 不 太 适 合 高 效 处 理 时 间 序 
列 数据 的 存储 和 得 询 。 关 系 型 数据 库 广 丙 为 解决 这 种 问题 经 常会 依靠 一 
些 非 标准 的 解决 方案 ， 例 如 ， 把 时 间 序 列 数据 存储 成 不 透明 的 “ 团 
儿 ”(blob〉， 然 后 用 专用 查询 扩展 模块 进行 解析 。 

团 儿 (blob〉 是 什么 ? 

本 章 后 面 你 会 学 到 ， 时 间 序 列 数据 拥有 清晰 的 特征 。 定 制 的 数据 结 
构 可 以 利用 这 些 特性 来 提供 更 高 效 的 存储 和 查询 。 关 系 型 系统 天 生 不 文 
持 这 些 特 殊 的 存储 格式 ， 因 此 这 些 数 据 结构 经 常 被 序列 化 成 二 进 制 表 
示 ， 并 且 按 照 一 种 没有 索引 的 字 节 数组 来 存储 。 然 后 需要 使 用 定制 操作 
模块 来 解析 这 种 二 进 制 数据 。 像 这 样 打包 在 一 起 存储 的 数据 通常 叫做 一 
个 四 

OpenTSDB 是 StumbleUpon 公 司 开 发 出 来 的 ， 这 家 公司 使 用 HBase 的 
经 验 非 常 丰 富 。OpenTSDB 是 一 个 使 用 HBase 作 为 后 合 存储 搭建 应 用 系 
统 的 了 不 起 的 例子 。OpenTSDB 是 开源 的 ， 所 以 你 可 以 访问 全 部 代码 。 
整个 项 目 使 用 了 不 到 1.5 万 行 Java 代 人 码 ， 因 此 可 以 从 整体 上 对 它 进 行 消化 
吸收 。OpenTSDB 根 本 上 是 一 种 在 线 数 据 可 视 化 工具 。 在 学 习 它 的 模式 
时 ， 请 记 住 这 一 点 。HBase 中 存储 的 每 个 数据 点 在 用 户 需 要 时 必须 能 够 














被 访问 ， 如 图 7-1 所 示 的 图 表 那 样 展 示 出 来 。 

简单 地 说 ， 这 就 是 OpenTSDB。 下 面 我 们 将 更 仔细 地 看 看 
OpenTSDB 被 设计 用 来 解决 什么 挑战 以 及 需要 存储 的 数据 种 类 。 此 后 ， 
我 们 将 思考 对 于 像 OpenTSDB 这 样 的 应 用 系统 ， 为 什么 采用 HBase 是 个 
好 的 选择 。 现 在 先 让 我 们 了 解 一 下 基础 架构 监控 ， 以 便 你 可 以 理解 这 个 
领域 的 问题 如 何 诱发 了 这 种 数据 模式 。 


mysql .slow_queries{schema=userdb} -一 一 
后 疼 apache .stats.1atency.99th{} 
4 Mysql .created_tmp_files{schema=userdb} 一 ”一 10 
| mysql .com_delete{schema=userdb} 一 所 一 
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图 7-1 OpenTSDB 图 形 输出 。OpenTSDB 是 一 种 数据 可 视 化 工具 。 
基本 上 它 以 这 样 的 图 形 深入 展示 所 存储 的 数据 





注 : 本 图 形 直接 取 自 OpenTSDB 网 站 。 
7.1.1 挑战 : 基础 设施 监控 


基础 设施 监控 是 为 了 监视 所 部 署 的 系统 而 使 用 的 术语 。 人 们 部 绪 了 
大 量 的 软件 项 目 ， 用 来 提供 在 网 络 上 访问 的 在 线 系统 和 服务 。 问 题 是 ， 
你 部 闭 了 这 些 系统 ， 这 意味 着 你 有 员 任 维护 好 这 些 系统 。 怎 么 知道 系统 
是 活着 还 是 死 了 ? 每 小 时 系统 服务 了 多 少 个 请 求 ? 系统 每 天 什么 时 间 流 
量 最 大 ? 如 果 你 曾经 因为 服务 终 正 在 半夜 收 到 过 短信 告警 ， 这 说 明 你 已 








经 在 使 用 基础 设施 监控 工具 了 。 

基础 设施 监控 不 仅仅 是 通知 和 告警 。 触 发 半夜 告警 的 事件 系列 只 是 
这 类 工具 收集 的 全 部 数据 中 的 一 小 部 分 。 相 关 数 据 还 包括 每 秒 服务 请 求 
数 、 并 发 活跃 用 户 数 、 数 据 库 读 写 、 平 均 啊 应 延迟 、 进 程 占用 内 存 等 。 
每 一 个 数据 都 是 一 个 特定 监控 指标 的 时 间 序 列 检 测 结果 ， 只 是 提供 了 整 
体系 统 运 行 视图 的 一 部 分 小 快照 。 在 一 段 时 间 窗 口 里 把 这 些 检测 结果 收 
集 起 来 ， 你 就 拥有 了 一 个 系统 运行 的 视图 。 

生成 图 7-1 那 样 的 图 片 需要 按照 监控 指标 和 时 间 间 隔 采 集 的 数据 。 
OpenTSDB 必 须 能 够 从 大 量 系 统 里 收集 各 种 监控 指标 ， 还 要 文 持 对 任何 
监控 指标 的 在 线 得 询 。 下 一 节 你 将 看 到 这 个 需求 如 何 成 为 OpenTSDB 模 
式 设计 的 重要 考虑 因素 。 

时 间 序 列 数据 在 OpenTSDB 模 式 设计 中 扮演 了 关键 角色 ， 所 以 我 们 
己 经 多 次 提 到 它 。 让 我 们 熟悉 一 下 这 种 数据 。 

7.1.2 数据 : 时 此 | 


可 以 把 时 间 序 列 数据 看 做 数据 点 或 者 二 元 数组 的 一 个 集合 。 每 个 数 
据点 有 一 个 时 间 惟 和 一 个 检测 结果 。 按 时 间 排 序 的 数据 点 集合 是 有 时 间 
顺序 的 。 检 测 结果 通常 以 有 规律 的 时 间 间 隔 来 采集 。 例 如 ， 你 可 能 使 用 
OpenTSDB 每 15 秒 采集 一 次 MySQL 进 程 发 送 的 字 节 数 。 本 例 中 ， 你 会 得 
到 一 个 图 7-2 所 示 的 数据 点 序列 。 通 常 这 些 数据 点 也 会 携带 检测 结果 的 
元 数据 ， 比 如 生成 一 系列 的 完整 主机 名 。 
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图 7-2 时 间 序 列 数据 是 一 个 按照 时 间 排 序 的 数据 点 序列 。 在 这 里 ， 
相同 比例 的 两 个 时 间 序 列 显示 在 同一 个 图 里 。 它 们 的 时 间 间 隔 不 同 。 妆 
可 视 化 地 表示 一 个 时 间 序 列 时 ，X 轴 的 值 一 般 表示 时 间 截 

时 间 序 列 数据 通常 在 经 济 学 、 金 融 、 目 然 科学 和 信和 号 处 理 中 可 以 看 
到 。 通 过 给 检测 结果 附加 一 个 时 间 惟 ， 我 们 可 以 了 解 检测 结果 值 随时 间 
发 展 的 变化 ， 也 可 以 了 解 基于 时 间 的 模式 形态 。 例 如 ， 茶 个 地 方 的 当前 
和 远 上 度 每 小 时 测量 一 次 ， 很 目 然 可 以 根据 前 面 的 点 预测 将 来 的 点 。 你 可 以 
基于 前 5 小 时 的 检测 结果 来 猜测 下 一 小 时 的 温度 。 

时 间 序 列 数 据 从 数据 宣 理 角度 看 鼎 具 挑战 性 。 系 统 里 所 有 数据 点 可 
能 共 吾 相同 的 字段 ， 如 日 期 /时 间 、 位 置 和 检测 结果 。 但 是 这 些 字段 不 
同 值 的 两 个 数据 点 可 能 完全 无 关 。 如 果 一 个 点 是 纽约 的 温度 而 为 一 个 是 
旧金山 的 ， 即 使 时 间 戳 相同 它们 可 能 也 是 无 关 的 。 如 何 用 一 种 相关 的 高 




















效 的 方式 存储 和 排序 数据 呢 ? 纽约 的 所 有 检测 结果 不 应 该 存储 在 一 起 
[本 ? 

另 一 个 值得 注意 的 问题 在 于 如 何 记 录 这 种 数据 。 在 计算 机 科学 里 ， 
树 〈tree) 是 一 种 用 于 随机 访问 的 高 效 的 数据 结构 ， 但 是 当 以 有 序 方 式 
构造 树 时 必须 特别 小 心 。 时 间 序 列 天 生 按照 时 间 排 序 ， 经 党 按照 这 个 顺 
序 被 存储 下 来 。 这 可 能 导致 存储 结构 以 最 糟糕 的 方式 构建 ， 如 图 7- 
3 (b) 图 所 示 。 











(a) 平衡 树 (b) 不 平衡 树 
图 7-3 平衡 树 和 不 平衡 树 。 把 数据 存 进 基 于 数据 值 自我 分 类 的 数据 
结构 时 ， 可 能 导致 最 糟糕 的 数据 分 布 状态 
像 树 一 样 ， 这 种 顺序 也 会 给 分 布 式 系统 带 来 严重 破坏 。HBase 归 根 
结 底 是 一 种 分 布 式 B 树 。 当 数据 按照 时 间 礁 跨 节 点 分 区 时 ， 新 数据 拥塞 
在 单个 节点 上 ， 导 致 热点 (hot spot) 问题 。 随 着 写 入 数据 的 客户 端 增 
加 ， 单 个 节点 很 容易 被 压 垮 。 
简 而 言 之 ， 这 就 是 时 间 序 列 数据 。 现 在 让 我 们 看 看 HBase 可 以 给 
OpenTSDB 系统 的 表 带 来 什么 。 





7.1.3 三 依 : HBase 


因为 HBase 提 供 可 扩展 的 数据 存储 能 力 ， 同 时 支持 低 延 人 运 查 询 ， 它 
给 OpenTSDB 这 样 的 应 用 系统 提供 了 极 佳 的 选择 。HBase 是 一 种 通用 
的 、 有 具有 灵活 数据 模型 的 数据 存储 ， 它 文 持 OpenTSDB 设 计 一 种 高 效 
的 、 相 对 可 定制 的 模式 来 存储 数据 。 本 例 中 ， 该 模式 可 以 针对 时 间 序 列 
检测 结果 和 它们 的 附属 标签 而 定制 。HBase 提 供 强 一 致 性 ， 所 以 
OpenTSDB 和 后 成 的 报表 可 以 作为 实时 报表 使 用 。HBase 提供 的 采集 数据 
视图 一 直 保 持 最 新 状态 。 由 于 OpenTSDB 需 要 支持 巨大 的 数据 量 ， 
HBase 的 水 平 扩展 能 力 是 非常 天 键 的 决定 因素 。 

当然 也 可 以 考虑 使 用 其 他 数据 库 。 你 可 能 使 用 MySQL 文 持 
OpenTSDB 这 样 的 系统 ， 但 是 如 果 每 天 玉 集 数 百 万 数据 点 ，1 个 月 以 后 
那 种 部 署 会 怎么 样 呢 ? 6 个 月 以 后 呢 ? 你 的 应 用 基础 设施 运行 18 个 月 以 
后 呢 ? 你 如 何 扩展 最 初 的 MySQL 机 器 来 处 理 整个 数据 中 心 生 成 的 监控 
数据 量 呢 ?” 假 设 你 已 经 随 着 生成 数据 的 增长 提高 了 部 车 的 配置 ， 并 且 你 
能 够 维护 集群 部 署 。 那 么 你 可 以 为 运 维 团队 提供 诊断 一 次 系统 中 断 而 需 
要 的 即兴 查询 服务 吗 ? 

如 果 使 用 传统 关系 型 数据 库 来 部 署 ， 所 有 这 一 切 是 有 可 能 解决 的 。 
你 会 得 到 一 张 令 人 印象 深刻 的 用 户 案 例 清单 ， 它 们 描述 了 基于 这 些 技术 
的 大 量 的 成 功 部 署 。 这 里 存在 的 问题 可 以 归结 为 成 本 和 复杂 性 。 扩 展 一 
个 关系 型 系统 来 处 理 这 种 数据 量 需 要 采用 分 区 策略 (partition) 。 这 种 
方式 通常 把 分 区 的 工作 放 进 应 用 代码 里 。 应 用 系统 无 法 从 这 种 分 区 数据 
库 中 得 询 数 据 。 相 反 ， 应 用 系统 必须 根据 所 有 主机 和 所 有 数据 范围 的 当 
前 信息 来 辨别 哪 一 个 数据 库 持 有 查询 的 数据 。 另 外 ， 数 据 分 区 情况 下 ， 
你 失去 了 关系 型 系统 的 一 个 主要 优点 : 强大 的 查询 语言 。 分 区 了 的 数据 
散布 在 彼此 不 知道 的 多 个 机 器 上 ， 这 意味 着 查询 功能 被 弱化 成 按 值 查 
找 。 任 何 复 杂 一 点 儿 的 查询 又 要 回 到 客户 问 代 码 里 解决 。 














HBase 对 客户 问 应 用 隐藏 了 分 区 的 细节 。 由 集群 分 配 和 管理 分 区 ， 
所 以 应 用 代码 很 幸福 地 什么 都 不 需要 知道 。 这 意味 着 ， 在 代码 里 你 需要 
管理 的 复杂 性 大 大 降低 。 虽 然 HBase 不 支持 像 SQL 那 样 丰富 的 查询 语 
言 ， 但 你 可 以 通过 设计 HBase 模 式 从 而 把 在 线 碍 询 的 大 部 分 复杂 性 留 在 
集群 上 。HBase 协 处 理 器 也 支持 把 任意 在 线 查 询 代 人 码 留 在 托管 数据 的 市 
点 上 运行 。 此 外 ， 你 拥有 强大 的 MapReduce 来 处 理 离线 查询 ， 这 赋予 你 
更 多 、 更 丰富 的 工具 来 构造 报表 。 现 在 ， 我 们 将 重点 放 在 一 个 具体 的 例 
| 

至 此 ， 你 应 该 已 经 了 解 OpenTSDB 的 目标 ， 以 及 那些 目标 提出 的 技 
术 挑 战 。 让 我 们 深入 细节 ， 学 习 如 何 设计 一 个 应 用 系统 来 满足 这 些 挑 
战 。 














7.2 设计 一 个 HBase 心 


尽管 OpenTSDB 可 以 选择 在 关系 型 数据 库 上 搭建 ， 但 是 它 是 一 个 
HBase 应 用 系统 。 那 些 希 望 像 HBase 一 样 具 备 扩 展 能 力 的 人 们 开发 了 这 
个 数据 系统 。 这 不 同 于 我 们 通 弟 在 关系 型 数据 系统 中 使 用 的 方式 。 在 
OpenTSDB 的 模式 设计 和 应 用 架构 里 都 可 以 看 到 这 些 区 别 。 

本 节 从 研究 OpenTSDB 模 式 开 始 。 对 于 许多 人 来 说 ， 这 可 能 是 第 一 
次 看 到 不 同 凡 啊 的 HBase 模式 。 我 们 希望 这 个 使 用 中 的 实例 可 以 帮助 你 
深入 理解 如 何 使 用 HBase 数据 模型 。 然 后 ， 你 会 看 到 如 何 利 用 HBase 的 
关键 特性 设计 应 用 系统 的 模型 。 

7.2.1 模式 设 ? 

OpenTSDB 使 用 HBase 提 供 两 个 明显 的 功能 。tsdb 表 提供 时 间 序 列 数 
据 的 存储 和 碍 询 文 持 。tsdb-uid 表 维护 一 个 全 局 唯一 值 UID 索 引 ， 其 中 
UID 对 应 监控 指标 标签 。 我 们 先 看 看 用 来 生成 这 两 个 表 的 脚本 ， 并 且 深 





入 研究 每 一 张 表 的 设计 和 用 途 。 首 先 ， 我 们 来 看 看 代码 清单 7-1 所 示 的 
脚本 。 
代码 清单 7-1 使 用 HBase Shell 脚 本 创建 OpenTSDB 使 用 的 表 


#!/bin/sh 
# Small script to setup the hbase table used by OpenTSDB. 





test -n "$HBASE HOME" || { 4 来 自 环 境 变 量 ， 
echo >&2 'The environment variable HBASE HOME must be set' 不 是 参数 
exit 1 

} 

test -Q "$HBASE HOME" || { 
echo >&2 "No such directory: HBASE HOME=$HBASE HOME" 
exit 1 


} 


TSDB TABLE=${TSDB TABLE-'tsdb')} 
UID TABLE=${UID TABLE-'tsdb-uid'} 
COMPRESSION=$ {COMPRESSION- 'L2ZO')} 


exec "$HBASE HOME/bin/hbase" shell <<EOF 


create '$UID TABLE', 创建 拥有 列 族 id 和 
{NAME => 'id', COMPRESSION => 'S$COMPRESSION'}, name 的 tsdb-uid 表 
{NAME => 'name', COMPRESSION => 'S$COMPRESSION'} 

create 's$TSDB TABLE', i 
{NAME => 't', COMPRESSION => '$COMPRESSION'} 创建 拥有 列 族 t 

EOF 的 tsdb 表 


需要 注意 的 第 一 件 事情 是 ， 这 个 脚本 和 关系 型 数据 库 里 包含 数据 库 
模式 定义 语言 (Data Definition Language) 代码 的 脚本 是 多 么 相似 。 
DDL 术语 经 常用 来 区 分 定义 修改 模式 的 代码 和 执行 数据 更 新 的 代码 。 
关系 型 数据 库 使 用 SQL 来 修改 模式 ， 而 HBase 依 乱 API。 如 你 看 到 的 ， 
为 此 目的 访问 API 的 最 方便 的 方式 是 通过 HBase Shell。 

1. 声明 模式 

tsdb-uid 表 包含 两 个 列 族 ， 即 id 和 name。tsdb 表 也 定义 了 一 个 列 族 ， 
叫做 t。 注 意 列 族 名 的 长 度 相当 短 。 这 是 因为 HBase 当 前 版 本 中 HFile 存 
储 格 式 的 一 个 实现 细节 一 一 名 字 越 短 意味 着 每 个 KeyValue 实例 存储 的 
数据 越 少 。 也 请 注意 ， 这 里 没有 高 级 抽象 概念 。 没 有 表 分 组 〈table 
group) 的 概念 ， 这 一 点 不 像 最 流行 的 关系 型 数据 库 。 在 HBase 中 所 有 
表 的 名 字 存 在 于 HBase master 管理 的 一 个 通用 命名 空间 里 。 











现在 你 看 到 了 在 HBase 里 如 何 创建 这 两 张 表 ， 让 我 们 研究 一 下 如 何 
使 用 它们 。 

2. tsdb-uid 表 

尽管 这 个 表 是 tsdb 表 的 辅助 表 ， 但 是 因为 理解 该 表 存 在 的 原因 有 助 
于 深刻 理解 整体 设计 ， 所 以 我 们 先 研 究 它 。OpenTSDB 模 式 设计 是 为 时 
间 序 列 检测 结果 和 它们 附加 标签 的 管理 而 优化 的 。 我 们 使 用 标签 

(tag) 来 进一步 识别 记录 在 系统 里 的 检测 结果 。 在 OpenTSDB 里 ， 标 签 
包括 监控 指标 (metric) 、 元 数据 名 字 (metadata name) 和 元 数据 值 
(metadata value) 。OpenTSDB 使 用 一 个 类 ， 即 UniqueId， 来 管理 各 种 

标签 ， 因 此 uid 出 现在 表 名 中 。 图 7-2 里 的 每 个 监控 指标 ， 即 
mysql.bytes_sent 和 mysql.bytes_received， 在 这 张 表 里 有 自己 的 唯一 
ID (Unique ID, UID) 。 

tsdb-uid 表 用 于 管理 UID。UID 国 定 3 个 字 节 宽 ， 作 为 tsdb 表 的 外 键 联 
系 使 用 ;更 多 细节 后 面 再 说 。 注 册 一 个 新 UID 会 在 这 个 表 里 添 加 两 行 ， 
一 行 从 标签 名 映射 到 UID， 男 一 行 从 UID 上 映射 到 标签 名 。 例 如 ， 注 册 
mysql.bytes_sent 监控 指标 会 生成 一 个 新 UID， 在 UID-name 行 里 用 做 行 
键 。 该 行 的 name 列 族 存储 标签 名 。 列 限定 符 作 为 UID 的 一 种 命名 空间 使 
用 ， 识 别 这 个 UID 是 一 个 监控 指标 (和 元 数据 标签 名 或 值 对 照 〉。 
name-UID 行 使 用 标签 名 作为 行 键 并 在 id 列 族 存储 UID， 再 一 次 用 标签 类 
型 作为 列 限定 符 。 代 码 清单 7-2 展 示 了 如 何 使 用 tsdb 应 用 来 注册 两 个 新 监 
控 指 标 。 

代码 清单 7-2 在 tsdb-uid 表 里 注册 监控 指标 














hbase@ubuntu:~$ tsdb mkmetric mysql.bytes sent mysql.bytes _ received 
metrics mysql .bytes sent: [0, 0, 1] 
metrics mysql.bytes received: [0, 0, 2] 


hbase@ubuntu:~$ hbase shell 
hbase (main) :001:0> scan 'tsdb-uid', {STARTROW => "\0\0\1"} 


ROW COLUMN+CELL 

\x00\x00\x01 column=name:metrics, value=mysql .bytes sent 
\x00\x00\x02 column=name:metrics, value=mysql .bytes received 
mysql .bytes received column=id:metrics, value=\x00\x00\x02 

mysql .bytes_ sent column=id:metrics, value=\x00\x00\x01 


4 row(s) in 0.0460 seconds 
hbase (main) :002:0> 


name-UID 行 文 持 标 签名 自动 补 全 功能 。OpenTSDB 的 用 户 界 面 文 持 
用 户 在 裔 入 UID 名 字 时 自动 从 这 个 表 里 把 含有 输入 字符 的 数据 提示 给 用 
户 。 这 个 功能 是 通过 限定 行 键 范 围 的 HBase 行 扫 摘 实现 的 。 后 面 你 会 看 
到 这 段 代 人 码 是 如 何 工作 的 。 当 记录 新 值 时 ， 接 收 输入 数据 并 把 监控 指标 
名 字 映 射 到 相应 UID 的 服务 也 会 用 到 这 些 行 。 

3. tsdb 表 

这 个 表 是 时 间 序 列 数 据 库 的 心脏 : 存储 时 间 序 列 检测 结果 和 元 数据 
的 表 。 该 表 设 计 用 来 文 持 按照 日 期 范围 和 标签 进行 过 滤 的 数据 得 询 。 这 
可 以 通过 行 键 的 精心 设计 来 实现 。 该 表 的 行 键 如 图 7-4 所 示 。 请 看 一 
看 ， 然 后 我 们 会 略 过 它 。 
控 指 标 UID | 

















图 7-4 OpenTSDB 行 键 的 布局 包含 3 字 节 的 监控 指标 ID、4 字 节 的 时 
间 惟 高 序 位 和 各 3 字 节 的 标签 名 ID 和 标签 值 ID， 重 复 其 他 标签 名 和 标签 
值 
还 记得 tsdb-uid 表 里 标签 名 注册 时 生成 的 UID 吗 ? 它们 被 用 在 该 表 的 
行 键 里 。OpenTSDB 针 对 以 监控 指标 为 中 心 的 查询 进行 优化 ， 所 以 监控 
指标 UID 排 在 最 开始 的 位 置 。HBase 按 行 键 排序 来 存储 行 ， 所 以 单个 监 
控 指 标的 整个 历史 数据 存储 在 连续 的 行 里 。 在 同一 个 监控 指标 的 行 里 ， 
它们 按时 间 惟 排序 。 行 键 里 的 时 间 戳 四 售 五 入 到 60 分 钟 ， 所 以 一 个 单 





行 存 储 某 一 个 小 时 检测 结果 的 数据 桶 。 标 签名 和 值 UID 在 行 键 里 位 于 最 
后 位 置 。 在 行 键 里 存储 所 有 这 些 属性 让 我 们 在 过 滤 搜 索 结果 时 可 以 使 用 
它们 。 很 快 你 会 看 到 那 是 怎么 做 的 。 

现在 我 们 已 经 研究 了 行 键 ， 让 我 们 再 看 看 检测 结果 是 怎么 存储 的 。 
注意 这 个 模式 只 有 一 个 列 族 t。 这 是 因为 HBase 要 求 一 张 表 至 少 包 含 一 个 
列 族 。 该 表 没 有 使 用 列 族 来 组 织 数 据 ， 但 是 ，HBase 需 要 有 一 个 列 族 。 
OpenTSDB 使 用 包含 两 部 分 内 容 的 2 字 节 〈16 位 ) 列 限 定 符 : 前 12 位 是 
四 人 铭 五 入 后 的 秒 数 ， 后 面 4 位 是 位 掩 码 。 检 测 结果 存储 在 单元 里 ， 占 用 8 








字 节 。 列 限定 符 如 图 7-5 所 示 。 
低 序 时 间 稚 


(12 位 ) 
图 7-5 列 限定 符 存储 时 间 稚 的 最 终 精 度 和 位 掩 码 。 掩 码 的 第 一 位 表 
明 单 元 中 的 值 是 整数 还 是 浮 点 数 

举 个 例子 看 看 。 比 如 说 ， 存 储 mysql.bytes_sent 监 控 指 标的 检测 结果 
476， 在 ubuntu 主机 上 ， 时 间 是 Sun, 12 Dec 2010 10:02:03 GMT。 你 把 监 
控 指 标 Cmetric) UID 部 分 存储 为 0x1，host 标 签名 为 0x2，ubuntu 标 签 值 
为 0x3。 其 中 时 间 截 按照 UNIX 格 式 描述 为 值 1292148123。 这 个 值 四 舍 五 
入 到 最 近 的 小 时 数 并 且 分 割 成 1292148000 和 123。 插 入 tsdb 表 的 行 键 和 单 
元 如 图 7-6 所 示 。 同 一 主机 上 同一 监控 指标 同一 小 时 内 采集 的 其 他 检测 
结果 都 将 存储 在 该 行 的 其 他 单元 里 。 





mysql.bytes_sent host 





行 键 





高 序 时 间 截 ubuntu 
列 族 掩 码 
列 
低 序 时 间 蕉 
单元 值 476 
检测 结果 





图 7-6 在 tsdb 表 里 存储 1292148123 秒 时 间 惟 的 mysql.bytes_sent 监 控 

指标 的 检测 结果 476 的 一 个 示例 : 行 键 、 列 限定 符 和 单元 值 

我 们 在 Java 应 用 里 不 常 看 到 这 种 位 级 别 上 的 考虑 ， 对 吧 ? 考虑 这 种 

情况 大 多 都 是 为 了 性 能 优化 。 每 行 存储 多 个 观测 值 可 以 让 帝 过 滤器 的 扫 

描 在 一 次 过 滤 里 滤 掉 更 多 的 数据 。 这 也 会 大 大 减少 基于 行 键 的 布 隆 过 滤 
器 需要 跟踪 的 行 数 。 

现在 你 已 经 了 解 了 HBase 模式 的 设计 ， 让 我 们 学 习 如 何 使 用 与 


OpenTSDB 相同 的 方法 搭建 一 个 可 靠 的 、 可 扩展 的 应 用 系统 。 
7.2.2 应 用 架构 


继续 研究 OpenTSDB 时 ， 记 住 这 些 HBase 设 计 的 基础 是 有 帮助 的 : 

加 其 于 多 个 市 点 线性 扩展 ， 而 不 是 单个 大 服务 器 ; 

加 自动 对 数据 分 区 和 管理 分 区 ; 

晶 跨 分 区 数据 的 强 一 致 性 ; 

加 数据 服务 的 高 可 用 性 。 

高 可 用 能 力 和 线性 扩展 能 力 经 常 是 决定 选择 HBase 搭 建 应 用 系统 的 
主要 原因 。 依 靠 HBase 的 应 用 系统 经 常 需要 满足 这 样 的 要 求 。 让 我 们 看 
看 OpenTSDB 如 何 通过 架构 的 选择 来 满足 这 些 目 标 。 其 架构 如 网 7-7 所 
示 。 
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图 7-7 OpenTSDB 架构 图 : 把 重点 任务 分 开 。3 个 重点 任务 是 数据 采 

集 、 数 据 存储 和 提供 查询 服务 

从 概念 上 讲 ，OpenTSDB 有 3 个 任务 : 数据 采集 、 数 据 存储 和 提供 
查询 服务 。 你 可 能 猜 到 了 ，HBase 提 供 数据 存储 ， 可 以 满足 这 个 需求 。 
OpenTSDB 如 何 满足 其 他 需求 呢 ? 让 我 们 逐个 看 看 ， 你 会 看 到 它们 是 如 
何 通 过 HBase 结 合 在 一 起 的 。 

1. 提供 查询 服务 


OpenTSD 有 一 个 处 理 与 HBase 交 互 的 进程 叫做 tsd。 它 使 用 简单 的 
HTTP 接 口 出 提供 基于 HBase 的 查询 服务 。 用 户 可 以 要 求 查询 元 数据 ， 
或 者 查询 显示 时 间 序 列 数据 的 图 片 。 所 有 tsd 进 程 都 是 相同 的 和 无 状态 
的 ， CR 到 达 这 些 机 器 的 流量 可 以 
通过 一 台 人 负载 均 衡器 进行 路 由 ， 就 像 导 流 任 何其 他 的 HTTP 流 量 一 样 。 
因为 服务 请 求 可 以 被 路 由 到 不 同 的 机 器 上 ， 上 所 以 单 台 机 器 的 中 断 不 会 影 
啊 客 户 站 

每 个 查询 是 独立 的 ， 可 以 由 一 个 tsd 进 程 独立 回应 。 这 支持 
OpenTSDB 的 读 取 可 以 实现 线性 可 扩展 能 力 。 客 户 端 请 求 数量 的 增长 可 
以 通过 运行 更 多 的 tsd 机 器 来 应 对 。OpenTSDB 碍 询 的 独立 特性 还 有 一 个 
附加 的 好 处 ， 即 可 以 通过 tsd 绥 存 提 供 得 询 结 果 。OpenTSDB 的 读 过 程 如 
图 7-8 所 示 。 
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1 用 户 指 定 查询 参数 。 

2 tsd 构 造 过 滤器 ， 提 交 范 围 扫 描 请 求 。 

3 HBase 扫 描 行 键 范围 ， 发 出 过 滤 后 的 记录 ， 返 回 结果 。 
4 tsd 给 出 时 间 序 列 数据 。 


图 7-8 OpenTSDB 读 过 程 。 碍 询 请 求 被 路 由 到 一 个 可 用 的 tsd 进 程 
上 ， 访 进程 查询 HBase 并 以 适当 的 格式 返回 结 
2. 数据 采集 
可 以 说 ， 数 据 采集 需要 “脚踏实地 ”。 某 个 进程 在 某 个 地 方 从 被 监控 
的 主机 上 收集 数据 并 且 存 储 到 HBase 里 。OpenTSDB 把 采集 的 负担 放 在 
被 监控 主机 上 ， 从 而 使 得 数据 采集 可 以 线性 扩展 。 每 台 机 器 本 地 运行 采 
集 检测 结果 的 进程 ， 并 且 每 台 机 器 负责 发 送 数 据 给 OpenTSDB。 往 基础 





设施 里 增加 新 主机 不 会 在 OpenTSDB 集 群 的 节点 上 增加 额外 的 负载 。 

如 果 网 络 连接 超时 ， 或 者 采集 服务 和 朋 吝 ，OpenTSDB 如 何 保证 监控 
言 恩 的 提交 呢 ? 事实 上 ， 实 现 高 可 用 性 并 不 复杂 。 在 每 台 被 监控 主机 上 
运行 的 tcollector 内 守 护 进 程 通过 本 地 收集 检测 结果 来 处 理 这 些 问 题 。 该 
进程 一 直 等 待 这 种 网 络 中 断 结 束 ， 负 责 确保 监控 信息 发 送 到 
OpenTSDB。 和 它 还 管理 采集 脚本 ， 按 照 合适 的 时 间 间 隅 运行 它们 ， 或 者 
当 它 们 骨 尝 时 重启 它们 。 还 有 一 个 附加 的 好 处 ， 为 tcollector 编 写 的 采集 
代理 可 以 是 简单 的 Shell 脚 本 。 

采集 器 代理 并 不 直接 写 入 HBase。 直 接 写 入 的 方式 需要 tcollector 安 
装 附 带 的 HBase 客户 端 库 以 及 所 有 依赖 项 和 配置 。 这 会 给 HBase 带 来 不 
必要 的 巨大 负担 。 因 为 tsd 已 经 部 闭 被 用 来 文 持 查询 工作 ， 所 以 它 也 被 用 
来 接收 数据 。tsd 进 程 使 用 一 种 简单 的 类 似 Telnet 的 协议 来 接收 监控 信 
恩 。 然 后 它 处 理 与 HBase 的 交互 。 因 为 tsd 只 负责 很 少 的 写 入 工作 ， 所 以 
少量 的 tsd 实例 就 可 以 应 对 很 多 倍 的 tcollector 代理 。OpenTSDB 写 过 程 
如 图 7-9 所 示 。 
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1 主机 报告 检测 结果 给 本 地 tcollector。 
2 tcollector 发 送 检测 结果 给 远程 的 tsd。 
3tsd 构 造 记录 ， 并 把 数据 写 入 HBase 。 
4 HBase 存 储 数 据 ， 并 确认 写 入 请 求 。 


图 7-9 OpenTSDB 写 过 程 。 被 监控 主机 上 的 采集 脚本 报告 检测 结果 
给 本 地 的 tcollector 进 程 。 然 后 检测 结果 被 传送 给 tsd 进 程 ， 该 进程 把 监控 
言 轧 写 到 HBase 

现在 你 对 OpenTSDB 有 了 完整 的 认识 。 更 为 重要 的 是 ， 你 已 经 看 到 
一 个 应 用 系统 如 何 利用 HBase 的 优点 。 这 没有 什么 特别 值得 惊讶 的 ， 尤 
其 是 如 果 你 以 前 曾经 开发 过 高 可 用 系统 。 但 是 值得 注意 的 是 ， 当 数据 存 
储 系 统 提 供 这 些 默 认 特 性 时 ， 一 个 应 用 系统 可 以 如 此 简单 地 实现 。 下 面 
我 们 来 看 一 些 代码 。 











7.3 实现 一 个 HBase/V 


准备 使 用 HBase! 请 注意 HBase 主 页 上 直接 列 出 的 下 面 这 些 接口 特 
性 。 

四 提供 易 用 的 Java API 供 客 户 端 访问 。 

量 支持 Thrift 网 关 和 支持 XML、Protobuf 和 二 进 制 数据 编码 的 
RESTful Web 服务 。 

四 使 用 服务 器 端的 过 滤器 三 询 决 定 下 推 数 据 。 

OpenTSDB 的 tsd 是 用 Java 实 现 的 ， 但 是 为 了 各 种 访问 使 用 了 男 一 个 
叫做 asynchbase 1 的 客户 端 库 ， 我 们 在 第 6 章 深 入 研究 过 相同 的 
asynchbase。 为 了 让 讨论 尽 可 能 普 授 适用 ， 我 们 先 展示 访问 HBase 的 伪 
代码 ， 然 后 展示 来 自 于 OpenTSDB 的 代码 。 如 果 你 知道 数据 是 如 何 写 入 
的 ， 会 更 容易 理解 数据 是 如 何 读 取 的 ， 所 以 这 次 我 们 从 写 过 程 开 始 。 

7.3.1 存储 数据 


如 同 你 在 研究 OpenTSDB 模 式 时 看 到 的 ，OpenTSDB 把 数据 存储 在 
两 个 表 里 。 在 把 一 行 插入 到 tsdb 表 之 前 ， 需 要 先生 成 所 有 的 UID。 让 我 
们 从 头 开 始 。 

1. 创建 UID 

把 一 个 检测 结果 写 入 tsdb 表 之 前 ， 必 须 先 把 它 的 标签 写 入 tsdb-uid。 
在 伪 代 码 里 ， 这 个 过 程 由 UniqueId.getOrCreateId() 方 法 处 理 ， 如 代码 清 
单 7-3 所 示 。 

代码 清单 7-3 往 tsdb-uid 表 插入 一 个 标签 的 伪 代 码 


class UnidqueId : 
MAXID ROW = Ox0 
ID _ FAMILY = toBytes ("id") 


NAME FAMILY = toBytes ("name") 为 每 一 种 标签 创建 








| . . 一 个 实例 
def UniqueId(this, table, kind): 


this.table = table 


this.kind = toBytes (kind) 4 | 种 类 可 能 是 监控 指标 、 
未 竹 记 成 标 禾 什 
def getOrCreateId(this, name): 标签 名 或 标签 值 
uid = HBase.get (this.table, toBytes (name), 如 果 UID 存在 
ID FAMILY, this.kind) te 
一 则 返回 名 字 刀 
if 0x0 != uid: 则 返回 名 字 对 

应 的 UID 





return uid 


uid = HBase.incrementColumnValue (MAXID ROW, 
ID FAMILY, 

this.kind) 

HBase.put (this.table, toBytes (uid), ike 
> 证 

NAME FAMILY, this.kind, toBytes (name)) 写 人 UID=> name 映 射 信息 


否则 生成 和 存储 
新 UID 





HBase.put (this.table, toBytes (name), ID FAMILY, 


this.kind, toBytes (uid)) | 与 人 name => UID 映射 信息 


return uid 


tsd 进 程 为 表 里 存 储 的 每 种 UID 实 例 化 一 个 UniqueId 类 。 本 例 中 ， 
metric〈 监 控 指 标 ) 、tag name (标签 名 ) 和 tag value (标签 值 ) 是 系统 
里 的 3 种 UID。 本 地 变量 kind 需要 在 构造 函数 里 被 恰当 设置 ， 还 有 变量 
table 设置 表 名 ， 默 认 值 是 tsdb-uid。UniqueId.getOrCreateId(0) 方 法 做 的 第 

- 件 事 是 看 看 表 里 是 否 已 经 有 这 种 UID。 如 果 有 ， 你 已 经 创建 了 UID， 
返回 该 数据 ， 继 续 ;， 和 否则， 为 这 种 映射 创建 和 注册 新 UID。 

我 们 使 用 存储 在 表 里 的 计数 器 的 形式 来 创建 新 UID， 使 用 Increment 
命令 递增 。 新 UID 被 创建 后 ， 两 个 映射 相应 被 存储 到 表 里 。 一 个 映射 一 
且 被 号 入 ， 它 就 永 不 改变 。 因 此 ，UID-name 的 映射 在 name-UID 映 射 之 
前 写 入 。 这 里 出 现 故障 会 导致 出 现 一 个 作废 的 UID， 但 不 会 有 进一步 的 
和 危害。 一 个 没有 配对 的 name-UID 了 映射 则 意味 着 ， 系 统 里 有 标签 名 但 是 
永远 不 能 从 检测 结果 记录 里 分 解 出 来 。 这 会 导致 无 主 孤儿 数据 ， 所 以 这 
是 非常 糟糕 的 。 最 后 ， 写 入 双 回 映射 后 ， 返 回 UID。 

由 于 还 有 错误 处 理 代 码 和 客户 端 API 不 支持 的 一 个 特性 的 临时 处 理 
代码 ， 该 方法 的 Java 代 人 码 包含 一 些 额 外 的 复杂 的 内 容 。 为 简洁 起 见 ， 去 
掉 额 外 考虑 部 分 之 后 的 代码 如 代码 清单 7-4 所 示 。 

代码 清单 7-4 UniqueId.getOrCreateId0) 方 法 的 精简 Java 代码 














public byte[] getOrCreateld(String name) throws HBaseException { 
HBaseException hbe = null; 


Ezy 
return getId(name); 省 略 错误 处 理 


} catch (NoSuchUniqueName e) { 


} 仅仅 用 来 临时 处 理 没有 RPC 协议 的 
特性 的 行销 ( rowlock ) 


RowLock lock = ... getLock(); 
ER 并 
WE 区 验证 该 行 不 存在 ， 
ina yte id = getId (name); 、 过 -AP 大- 
return id; 避免 竞争 状态 
is J 少 、\ 2 
} catch (NoSuchUniqueName e) {} 省 略 错误 处 理 
lorng id; 
byte [] row; PO 
Ez { 与 id 相同 ， 但 按 字 节 数组 处 理 
row = hbaseICV (MAXID ROW, ID FAMILY, lock) 
if (row == null) { 
1 = 13; 
row = Bytes.fromLong (id); 
} else { 
id = Bytes.getLong (row); 
} 省 略 UID 宽度 验证 信息 


row = Arrays.copyOfRange (row, row.length - idWidth, row.length),; 
b Wael fo od | 


} 省 略 错误 处 理 
try, { 
final PutRequest reverse mapping = new PutRequest( 创建 
table, row, NAME FAMILY, kind, toBytes (name) ) ; 反 向 
hbasePutWithRetry (reverse mapping, MAX ATTEMPTS PUT, 映 和 
INITIAL EXP BACKOFF DELAY); 
} waeel (va, 
} 省 略 错误 处 理 
txy | 
final PutRequest forward mapping = new PutRequest( 创建 
table, toBytes (name), ID FAMILY, kind, row); 正 向 
hbasePutWithRetry (forward mapping, MAX ATTEMPTS PUT, 映射 
INITIAL EXP BACKOFF DELAY ); 
} wateh Lo) 
} 省 略 错误 处 理 


addIdToCache (name, row); 
addNameToCache (row, name); 
return row; 

finally { 

unlock (1Lock) ; 


注册 完 标 签 后 ， 你 可 以 继续 在 tsdb 表 里 为 一 条 记录 生成 一 个 行 键 。 

2. 生成 部 分 行 键 

在 tsdb 表 里 相 同 监控 指标 和 标签 名 的 行 键 看 起 来 是 相同 的 ， 只 是 时 
间 惟 不 同 。OpenTSDB 在 IncomingDataPoints.rowKeyTemplate() 方 法 里 
实现 了 这 种 行 键 部 分 构造 的 功能 。 实 现 该 方法 的 伪 代 码 如 代码 清单 7-5 
所 示 。 

代码 清单 7-5 生成 行 键 的 盆 代 码 


class IncomingDataPoints: 
TIMESTAMP BYTES = 4 





tags 是 一 个 从 标 
签名 到 标签 值 映 


def static getOrCreateTags (tsdb, tags): 





tag ids = [] 2 
要 
for(name, value in tags.sort()): < 一 一 射 的 集合 
lag as += tsdb.tag names .getOrCreateId (name) 4 bode naie 
tag ids += tsdb.tag values.getOrCreateId (value) < 一 一 s 是 一 个 UD 实例 
return ByteArray (tag ids) tsdb.tag_values 二 


也 是 一 个 UID 实例 
def static rowKeyTemplate(tsdb, metric, tags): 


metric width = tsdb.metrics.width!() 需要 tsdb 实例 





tag name width = tsdb.tag names.width() 获取 相关 信息 
We wy 1 
tag value width = tsdb.tag values.width() 
num tags = tags.size() 
row_size = (metric width + TIMESTAMP_BYTES 行 键 的 宽度 根据 标签 
+ tag name width * num tags 的 数量 而 变化 


+ tag value width * num tags) 
row = ByteArray (row_ size) 
tsdb.metrics 


row[0 .. metric width] = 是 一 个 UID 实例 


tsdb.metrics.getOrCreatelId (metric) 
row[metric width + TIMESTAMP BYTES ..] = 


最 后 加 上 标签 UID 
getOrCreateTags (tsdb, tags) 





” 这 个 方法 的 主要 考虑 是 正确 摆 放行 键 的 各 个 部 分 。 如 在 前 面 图 7-5 
里 看 到 的 ， 这 个 次 序 是 监控 指标 的 UID (metric UID〉、 部 分 时 间 稚 
Cpartial timestamp ) 和 标签 名 值 对 的 UID (tag pair UID ) 。 请 注意 ， 在 
插入 前 标签 是 有 序 的 。 这 保证 了 相同 的 监控 指标 和 标签 每 次 映射 到 相同 
的 行 键 。 
代码 清单 7-6 所 示 的 Java 实 现 几 乎 等 同 于 代码 清单 7-5 所 示 的 伪 代 





人 码 。 最 大 的 不 同 在 于 辅助 方法 的 结构 。 
代码 清单 7-6 IncomingDataPoints.rowKeyTemplate() 方 法 的 Java 代 码 


static byte[] rowKeyTemplate(final TSDB tsdb, 
final String metric, 
final Map<String, String> tags) { 
final Short metric width = tsdb.metrics.width(); 
final Short tag name width = tsdb.tag names.width(); 
final short tag value width = tsdb.tag values.width(); 
final short num tags = (short) tags.size(); 


int row size = (metric width + Const.TIMESTAMP BYTES 
+ tag name width * num tags 
+ tag value width * num tags); 

final byte[] row = new byte[row size]; 


short pos = 0; 


CopyInRowKey (row, pos, (AUTO METRIC ? tsdb.metrics.getOrCreateld (metric) 
: tsdb.metrics.getId (metric))); 
pos += metric width; 


pos += Const .TIMESTAMP BYTES; 


for (final byte[] tag : Tags.resolveOrCreateAll (tsdb, tags)) { 
copyInRowKey (row, pos, tag); 
pos += tag.length; 


} 


return row; 


这 就 是 全 部 内 容 ! 现在 你 已 经 知道 了 所 有 的 东西 。 

3. 写 入 检测 结果 

所 有 必需 的 辅助 方法 已 经 就 绪 ， 是 写 入 一 条 记录 到 tsdb 表 的 时 候 
de eb 

(1) 构建 行 键 。 

(2) 确定 列 族 和 列 限 定 符 。 

(3) 确认 存 入 单元 的 内 容 。 

(4 号 大 记 这 3 

这 个 逻辑 封装 在 TSDB.addPoint() 方 法 里 。 代 码 清单 7-6 里 的 那些 tsdb 
实例 是 这 个 类 的 实例 。 让 我 们 在 深入 研究 Java 实 现 之 前 再 次 使 用 伪 代 
码 ， 如 代码 清单 7-7 所 示 。 











代码 清单 7-7 插入 一 条 tsdb 记 录 的 伪 代 码 


class TSDB: 每 行 的 时 间 间 隔 60 
ei 秒 x 60 分 钟 =1 小 时 | 2 字 节 的 列 限定 符 为 
ee 二 三保 留 4 个 位 
FLAG BITS a 掩 码 保留 4 个 位 
FLOAT FLAGS = 1011b 一 进 制 标 志 掩 码 
LONG FLAGS = 0111b L 和 


def addPoint (this, metric, timestamp, value, tags): 


row = 

IncomingDataPoints.rowKeyTemplate(this, metric, tags) 组 装 
base time = (timestamp - (timestamp % MAX TIMESPAN)) 行 键 
row[lmetrics.width()..] = base 七 Ime 
flags = value.isFloat? ? FLOAT FLAGS : LONG FLAGS 组 装 
qualifier = (timestamp - basetime) << FLAG BITS | flags 列 限 
qualifier = toBytes (qualifier) 定 符 


HBase.put (this.table, row, FAMILY, qualifier, toBytes (value)) 

写 入 值 就 是 这 么 简单 ! 现在 我 们 看 看 用 Java 实 现 同样 的 事情 。 写 入 
数据 类 型 Longs 和 Floats 的 代码 基本 相同 。 我 们 看 看 写 入 数据 类 型 Longs 
的 代码 ， 如 代码 清单 7-8 所 示 。 

代码 清单 7-8 实现 TSDB.addPoint( 的 Java 代 码 


public Deferred<Object> addPoint (final String metric, 
final long timestamp, 
final long value, 
final Map<String, String> tags) { 
和 Shore JS SS O07 
return addPointIinternal (metric, timestamp, Bytes.fromLong (value), 
tags, flags); 


} 


private Deferred<Object> addPointIinternal (final String metric, 
final long timestamp, 
final byte[] value, 
final Map<String, String> tags, 
final short flags) { 
if ((timestamp & OxFFFFFFFFO0000000L) != 0) { 
ER es 检验 timestamp<0 或 者 
} timestamp >Integer. 


IncomingDataPoints.checkMetricAndTags (metric, tags); NAA VALUE 


final bytel[l] row = IncomingDataPoints.rowKeyTemplate(this, metric, tags); 


final long base time = (timestamp - (timestamp % Const.MAX TIMESPAN)); 
Bytes.setIint (row, (int) base time, metrics.width()); 
final short qualifier = (short) ((timestamp - base time) << 


Const .FLAG BITS | flags); 
final PutRequest point = new PutRequest (table, row, FAMILY, 
Bytes .fromShort (qualifier), value); 


return client.put (point); 
回顾 一 下 前 面 的 代码 清单 ， 无 论 伪 代码 还 是 Java 代 人 码 ， 部 没有 太 多 
与 HBase 的 交互 内 容 。 写 入 一 行 最 复杂 的 部 分 是 组 装 需 要 写 入 的 值 。 与 
入 记录 反倒 是 容易 的 部 分 ! OpenTSDB 需 要 精心 组 装 行 键 。 这 些 努 力 在 
读 取 时 将 会 得 到 回报 。 下 一 节 告 诉 你 如 何 得 到 回报 。 


7.3.2 但 询 数 据 


数据 存 入 HBase 后 ， 能 把 它 按照 需要 读 取出 来 才 是 有 用 的 。 
OpenTSDB 在 两 种 不 同 的 使 用 情况 下 需要 这 样 做 : UID 名 字 自 动 补 全 ， 
查询 时 间 序 列 数据 。 这 两 种 情况 下 ， 读 取 数 据 的 步 又 顺序 相同 。 

(1) 确定 行 键 范围 。 

(2) 定义 适当 的 过 滤器 标准 。 

(3) 执行 扫描 。 

















让 我 们 看 看 在 实现 时 间 序 列 元 数据 自动 补 全 时 需要 什么 。 

1. UID 名 字 上 自动 补 全 

还 记得 tsdb-uid 表 里 的 双 回 映射 吗 ? 其 中 的 反 回 映射 用 来 文 持 图 7-10 
所 示 的 自动 补 全 UI 特性 。 


T S D Time Series Database 


Graph] Stats Logs Version 








From To (now) Autoreload WxH: -20x0 
Axes Key 
: Y¥ Y2 
"| * 
A 1 | Label 
Metric: mw DRateDRightAxis 
as Aggregator | sum 3 Format 
Tags mysql.bytes_received Downsample Range |[0:] [01] 
mysql.bytes_sent avg :||10m Log 


Please specify a start time. 

图 7-10 存储 在 tsdb-uid 表 里 的 name-UID 映 射 支持 OpenTSDB 监 控 指 

标 自 动 补 全 功能 

HBase 使 用 访问 数据 的 行 键 扫 摘 模式 来 文 持 这 种 应 用 特性 。HBase 
在 每 张 表 的 行 键 上 维护 索引 ， 上 所 以 定位 起 始点 非常 快 。 然 后 ，Hbase 的 
BlockCache 发 挥 作 用 ， 从 内 存 里 快速 恋 取 连续 的 数据 块 ， 必 要 时 从 
HDFS 里 读 取 。 本 例 中 ， 那 些 连 续 的 数据 块 保 存 着 tsdb-uid 表 里 的 行 。 在 
图 7-10 里 ， 用 户 在 监控 指标 字段 输入 my。 这 些 字符 被 认为 是 扫描 的 起 始 
键 。 你 只 想 显 示 匹 配 这 个 前 绥 的 条 目 ， 所 以 扫 摘 的 停止 行 计 算 到 mz。 
你 也 只 想得到 在 列 族 id 上 有 值 的 记录 (也 就 是 name-UID 映 射 的 记录 ， 在 
列 族 id 上 有 值 ) ; 否则 你 会 把 UID 当做 文本 解释 出 来 (不 应 该 是 UID- 
name 映射 的 记录 〉) 。 代 码 清单 7-9 所 示 的 这 段 Java 代 码 很 容易 读 懂 ， 所 
以 我 们 跳 过 伪 代 码 。 

代码 清单 7-9 用 UniqueId.getSuggestScanner() 方 法 在 tsdb-uid 表 上 创建 











一 个 扫描 器 
private Scanner getSuggestScanner (final String search) { 
final byte[] start row; 
final bytel[l] end row; 
if (search.isEmpty()) { 
start row = START ROW; 空 值 搜索 从 ! 到 一 
end row = END ROW; 扫描 ASCII 码 
} else { | "my ' 的 起 始 键 为 
start row = toBytes (seazrch) ; bytel] ['m' 'y'] 
end row = Arrays.copyOf (start row, start row.length); 


end rowlstart row.length - 1]++; ‘my ' 的 停止 键 为 
bytell Lm "Zz'] 





} 


final Scanner scanner = client .newScanner (table); 
scanner.setStartKey (start row); , 
scanner.setStopKey (end row); | 只 包括 name-UID 
scanner.setFamily (ID FAMILY); < 的 行 


scanner.setQualifier (kind); 寺 

只 包括 UID: 
Scanner .SetMaxNumRows (MAX_SUGGESTIONS ) ; Se 
return scanner; metrics 类 型 


扫描 器 构造 出 来 后 ， 从 HBase 中 读 取 记录 束 像 读 取 任何 其 他 的 迭代 
嚣 一样。 读 取 扫描 器 的 建议 做 法 是 ， 提 取 成 字 市 数组 并 把 它 解 释 为 字符 
串 。 列 表 用 来 维护 返回 结果 的 排序 次 序 。 代 码 清单 7-10 中 是 Java 代 码 ， 
再 次 去 挥 了 额外 的 辅助 部 分 。 

代码 清单 7-10 Uniqueld.suggest0 方 法 的 精简 Java 代 人 码 


public List<String> suggest (final String search) throws HBaseException { 
final Scanner Scanner = getSuggestScanner (search),，; 
final LinkedList<String> suggestions = new LinkedList<String>(); 





try { 
ArrayList<ArrayList<KeyValue>> rows; 
while ((rows = scanner.nextRows().joinUninterruptibly()) != null) { 
for (final ArrayList<KeyValue> row : rows) { 4 . EE: 
a . | 行 里 的 每 个 单元 都 
final byte[] key = row.get (0) .key(); 是 键 值 ( KeyValue ) 
final String name = fromBytes (key); 二 a 
Wy es 验证 行 的 大 小 ,每 行 应 
suggestions.add (name) ; 省 略 缓存 逻辑 部 分 该 只 有 一 个 单元 
if ((short) suggestions.size() > MAX SUGGESTIONS) { 
break; 
} 
} 
} 


return suggestions; 


} 

2. 读 取 时 间 序 列 数据 

同样 的 技术 被 用 来 从 tsdb 表 里 读 取 时 间 序 列 数据 段 。 因 为 该 表 的 行 
键 比 tsdb-uid 表 复 杂 ， 所 以 这 种 查询 要 复杂 一 些 。 这 种 复杂 性 体现 在 多 
字段 过 滤器 。 对 于 这 张 表 ， 监 控 指标 、 日 期 范围 和 标签 都 要 在 过 滤器 里 
考虑 到 。 这 种 过 滤器 应 用 在 HBase 服 务 器 端 ， 而 不 是 客户 端 。 因 为 这 样 
可 以 大 大 减少 传送 给 tsd 客 户 问 的 数据 量 ， 这 个 细节 是 极其 重要 的 。 请 记 
住 ， 这 里 过 滤器 使 用 了 一 种 建立 在 行 键 里 不 可 读 字 节 上 的 正则 表达 式 。 

这 种 扫描 和 前 面 例子 的 男 一 个 主要 区 别 是 时 间 序 列 聚 合 。 
OpenTSDB 的 UI 文 持 把 同一 标签 的 多 个 时 间 序 列 数据 聚合 到 一 个 时 间 序 
列 来 显示 。 这 些 标签 组 也 必须 在 构建 过 滤 右 时 考虑 到 。 为 此 TsdbQuery 
用 到 私有 变量 group_bys 和 group_by_values。 

所 有 这 些 过 滤器 都 通过 TsdbQuery.run(0) 方 法 实现 。 这 个 方法 与 之 前 
的 方法 工作 流程 相似 ， 创 建 带 过 滤器 的 扫描 器 ， 裔 历 返 回 的 行 和 收集 数 
据 供 显示 使 用 。 辅 助 方法 TsdbQuery.getScanner() 和 
TsdbQuery.findSpans() 分 别 与 UniqueId.get SuggestScanner() 和 和 








UniqueId.suggestO 基 本 相同 ， 所 以 它们 的 代码 清单 表 被 省 略 了 。 但 是 ， 
下 面 看 看 Tsdb-Query.createAndSetFilter()， 详 见 代 码 清单 7-11。 这 个 方法 
实现 在 行 键 上 建立 正则 表达 式 过 滤器 这 个 有 趣 的 部 分 。 

代码 清单 7-11 TsdbQuery.createAndSetFilter() 方 法 的 Java 代 码 


void createAndSetFilter(final Scanner scanner) { 


final Short name width = tsdb.tag names.width(); 
final short value width = tsdb.tag values.width(); 
final Short tagsize = (Short) (name width + value width); 


分 配 足 够 长 的 字符 串 缓 冲 


final StringBuilder buf = new StringBuilder( 


15 + ((13 + tagsize) 区 (StringBuffer ) 来 
* (tags.size() + (group bys.size())))); 保存 正则 表达 式 
buf.append("(?s)" 
a 先 跳 过 监控 指标 ID 
.append(tsdb.metrics.width() + Const.TIMESTAMP BYTES) 和 时 间 戳 
.appenQ(" }") ; 


final Iterator<byte[]> tags = this.tags.iterator () ; 
final Itezrator<byte [] > group bys = this.group bys.iterator(); 


byte[] tag = tags.hasNext() ? tags.next() : null; 
byte [] group by = group bys.hasNext() ? group bys.next() : null; 
人 Pr i , ey 标签 和 组 已 经 排 过 
uf .append("(?:.1") .append(tagsize) .append("})*\\Q"); g A 
if (isTagNext (name width, tag, group by)) { 序 , 按 UID 合并 在 
addId (buf, tag); 一 起 
tag = tags.hasNext() ? tags.next() : null; isTagNext () 实际 
} else { 上 是 一 个 UID 比较 器 
adqdId (buf, group by); 
final byte[] [] value ids = (group by values == null 


2 Null 


: group by values.get (group_by) ) ; 


if (value ids == null) { 
buf.append(".{") .append(value width) .append('}'); 如 果 分 组 时 没有 考 
} else { 4 虑 标签 值 
buf.append("(?:"); 
for (final byte[] value id : value ids) { 


buf .append ("\\Q"); 用 | 联结 标签 值 
addId (buf, value id); 
buf .append('|'); 
} 
buf.setCharAt (buf.length() - 1, ')'); 不 要 忘 了 结 
} 尾 的 | 
group by = group bys .hasNext() ? group bys.next() : null; 


} Mie (tag != group_by); 

buf .append("(?:.{") .append (tagsize) .append ("})*$"); 
scanner.setKeyRegexp (buf .上 toString()，CHRARSET) ; ”| 运用 过 滤器 

构建 字 市 级 别 的 正则 表达 式 并 不 像 听 起 来 那么 可 怕 。 使 用 这 种 过 渡 
器 ，OpenTSDB 提 交 查 询 给 HBase。 焦 群 中 托管 起 始 键 和 停止 键 之 间 数 
据 的 每 个 市 点 将 并 行 处 理 与 自己 有 关 的 扫描 部 分 ， 并 过 小 相关 记录 。 结 


果 行 被 送 回 到 tsd 供 图 形 渲染 。 最 后 ， 你 在 男 一 疾 看 到 了 曲线 图 。 
7.4 小 结 


前 面 我 们 说 HBase 是 一 种 灵活 的 、 可 扩展 的 、 易 于 访问 的 数据 库 。 
你 刚刚 在 实战 中 看 到 了 它 的 一 些 特点 。 有 灵活 的 数据 模型 文 持 HBase 存 储 
各 种 数据 ， 时 间 序 列 数据 只 是 一 种 例子 。HBase 征 为 可 扩展 能 力 而 设计 
的 ， 现 在 你 看 到 了 如 何 设 计 一 个 应 用 系统 和 它 一 样 具 有 扩展 能 力 ， 也 深 
入 理解 了 如 何 使 用 API。 我 们 希望 基于 HBase 拱 建 应 用 系统 的 想法 不 再 
令 人 长 惧 。 我 们 将 在 下 一 章 继续 研究 在 HBase 上 搭建 妃 一 个 真实 的 应 用 
系统 。 





第 8 音 在 HBase 上 查询 地 理 信 息 系 


本 章 涵 盖 的 内 容 

加 让 HBase 适 应 为 多 维度 数据 建立 索引 的 挑战 

中 在 模式 设计 里 应 用 领域 知识 

四 在 真实 世界 里 使 用 定制 过 滤器 

本 章 我 们 将 进入 一 个 使 用 HBase 的 新 领域 ， 即 地 理 信息 系统 

(Geographic Information Systems) 。GIS 是 一 个 有 趣 的 研究 领域 ， 因 为 

它 提出 了 两 个 重要 的 挑战 : 大 规模 数据 处 理 的 延迟 和 空间 位 置 建 模 。 我 
们 将 以 GIS 作 为 透镜 来 演示 如 何 让 HBase 适 应 这 些 挑战 。 为 了 做 到 这 
些 ， 你 需要 充分 运用 一 些 特有 的 领域 知识 。 


8.1 运用 地 理 数据 





地 理 系统 经 党 作为 在 线 交 互 用 户 体 验 的 基础 来 使 用 。 想 想 那 些 基 于 
位 置 的 服务 ， 如 Foursquare、Yelp 或 者 Urban Spoon。 这 些 服务 致力 于 提 
供 全 球 数 百 万 地 理 位 置 相 关 信 息 。 例 如 ， 用 户 依靠 这 些 应 用 服务 在 一 个 
不 熟悉 的 地 区 寻找 最 近 的 咖啡 店 。 他 们 肯定 不 希望 在 他 们 和 拿 铁 咖啡 之 
间 还 需要 等 待 一 个 MapReduce 作 业 。 我 们 已 经 讨论 过 HBase 可 以 作为 一 
个 平台 提供 在 线 数据 访问 ， 所 以 HBase 可 以 合理 应 对 第 一 个 挑战 。 如 同 
在 上 一 章 中 看 到 的 ， 当 HBase 的 模式 被 设计 用 来 物理 存储 数据 时 ， 

HBase 可 以 提供 低 请 求 延 人 运 。 这 顺便 把 你 带 到 第 二 个 挑战 ， 即 空间 位 
置 。 

GIS 数 据 里 的 空间 位 置 是 很 微妙 的 。 本 章 我 们 将 用 很 大 的 篇 幅 介 绍 

一 个 叫做 geohash 的 算法 ， 这 是 该 问题 的 解决 办 法 。 其 思路 是 把 地 球 上 








一 个 地 方 的 所 有 信息 紧密 地 存储 在 一 起 。 这 样 的 话 ， 当 你 想 调查 那个 位 
置 时 ， 只 需要 发 出 尽 可 能 少 的 数据 请 求 。 你 也 会 希望 地 球 上 相 邻 位 置 的 
言 恩 在 硬盘 上 也 是 相 邻 存储 的 。 如 果 你 正在 访问 市 中 心 曼 哈 顿 的 信息 ， 
很 可 能 你 也 想得到 切尔西 和 格林 威 治 村 的 信息 。 你 希望 把 这 些 数据 和 市 
中 心 的 数据 存 得 更 近 一 些 ， 比 如 说 比 布 鲁 克 林 或 者 星 后 区 【〈 离 曼哈顿 较 
远 的 区 域 ) 的 数据 更 近 一 些 ， 你 可 能 会 获得 更 快 的 用 户 体验 。 

空间 位 置 不 是 Hadoop 的 数据 位 置 

空间 位 置 (spatial locality) 的 想法 和 Hadoop 的 数据 位 置 (data 
locality) 概念 相似 但 不 相同 。 两 个 例子 中 ， 我 们 都 在 考虑 移动 数据 的 行 
为 。GIS 中 空间 位 置 是 指 把 数据 按照 类 似 的 空间 关系 存储 在 类 似 的 地 
方 。Hadoop 中 数据 位 置 是 指 在 集群 里 尽 可 能 在 物理 存放 数据 的 机 器 上 
执行 数据 访问 和 计算 。 这 两 种 情况 都 是 关于 如 何 把 使 用 数据 的 开销 降 到 
最 低 的 ， 但 是 相似 之 处 也 就 到 此 为 止 。 

地 理 数据 最 简单 的 形式 ， 也 就 是 地 球 上 的 一 个 点 ， 由 两 个 同等 相关 
维度 决定 ， 即 经 度 〈X 轴 ) 和 纬度 〈Y 轴 ) 。 这 只 是 一 种 简化 。 许 多 专 
业 GIS 系 统 可 能 在 X 轴 和 Y 轴 之 外 考虑 Z 轴 ， 如 高 度 或 海拔 。 许 多 GIS 应 
用 也 基于 时 间 跟 踊 位 置 ， 这 意味 着 上 一 章 讨 论 的 时 间 序 列 数据 所 面临 的 
所 有 挑战 。 当 设计 系统 提供 低 延 迟 数据 访问 时 ， 上 述 两 种 维度 的 数据 位 
置 都 很 关键 。HBase 通 过 模式 设计 和 行 键 的 运用 确定 这 两 种 维度 的 数据 
位 置 。 有 序 的 行 键 能 够 直接 控制 数据 存储 的 位 置 。 

当 两 个 维度 (也 许 4 个 维度 ) 同等 相关 时 ， 如 何 保证 空间 数据 的 数 
据 位 置 呢 ? 例如 ， 专 门 在 经 度 上 建立 的 索引 表示 ， 纽 约 市 离 和 芝加哥 比 离 
西雅图 更 近 。 但 是 如 图 8-1 所 示 ， 它 也 会 告诉 你 ， 纽 约 市 哥伦比亚 的 波 
哥 大 比 离 华盛顿 哥伦比亚 特区 更 近 。 仅 仅 考虑 一 个 维度 不 足以 满足 GIS 
的 需要 。 

注意 本 章 研 究 空间 概念 ， 这 只 能 通过 插图 进行 有 效 沟通 。 为 此 ， 
我 们 采用 了 基于 浏览 器 的 叫做 Leaflet 的 制图 库 来 建立 这 些 可 重复 精度 的 



































插图 。GitHub 宣 称 本 章 项 目 使 用 了 95% 的 JavaScript。 图 中 的 地 图 切片 来 
自 于 Stamen Design 的 漂亮 的 Watercolor 切 片 集 ， 它 们 建立 在 完全 开放 的 
数据 上 。 可 以 在 http://leaflet.cloudmade.com 了解 更 多 关于 Leaflet 的 信 

妃 。Watercolor 的 信息 在 http://maps.stamen.com/ #watercolor 可 以 找到 。 
底层 数据 来 自 于 OpenStreetMap， 这 是 一 个 类 似 于 Wikipedia 的 项 目 ， 


但 更 专注 于 地 理 数 据 。 可 以 在 www.openstreetmap.org 了 解 更 多 相关 信 
自 
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如 何 组 织 数据 以 正确 理解 纽约 市 离 华盛顿 比 离 波 哥 大 更 近 呢 ? 在 本 
章 将 使 用 专门 的 空间 索引 (spatial index) 来 应 对 这 个 挑战 。 你 将 使 用 这 
种 索引 作为 以 下 两 种 空间 查询 的 基础 。 第 一 种 查询 ，“k 个 最 近 的 令 
居 ”， 直 接 建 并 在 这 种 索引 上 。 第 二 种 查询 ， “多边形 区 域内 查询 ”， 通 
过 两 次 系 引 实现 。 第 一 和 种， 单单 基于 空间 索引 就 可 以 建立 。 第 二 种 实现 
使 用 定制 过 滤器 (custom filter〉 的 形式 把 工作 尽 可 能 转移 到 服务 器 端 。 
这 样 会 最 大 限度 利用 HBase 和 集群 来 执行 运算 工作 ， 并 且 把 返回 客户 端的 
多 余数 据 降 到 最 低 。 同 时 ， 你 将 学 习 丰 富 的 新 行业 知识 ， 把 HBase 打 造 
成 一 个 完全 胜任 的 GIS 机 器 。 人 们 第 说 ， 细 节 里 面 有 魔鬼 ， 所 以 让 我 们 
放大 地 图 的 比例 ， 从 国际 城市 则 的 距离 问题 转换 为 一 个 更 加 本 地 性 的 问 
题 来 加 以 解决 。 
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图 8-1 在 GIS 里 ， 所 有 维度 重要 性 相同 。 仅 仪 在 经 度 ，X 轴 上 ， 建 立 














世界 城市 的 索引 ， 针 对 某 些 查 询 会 把 数据 进行 错误 的 排序 
本 章 中 使 用 的 代码 和 数据 可 以 在 我 们 的 GitHub 账号 里 获取 。 项 目 
位 于 https://github.com/hbaseinaction/gis。 


四 让 家 
假设 你 正在 访问 纽约 市 ， 需 要 互联 网 接 入 。“ 哪 里 有 最 近 的 wifi 热 点 


呢 ? ”一 个 HBase 应 用 系统 如 何 帮 你 回答 这 个 问题 呢 ? 什么 样 的 模式 设计 
可 以 解决 这 个 问题 呢 ? 如 何 用 一 种 可 扩展 的 方式 解决 这 个 问题 呢 ? 


你 需要 快速 访问 到 数据 的 相关 子 集 。 为 了 做 到 这 一 点 ， 让 我 们 从 两 
个 简单 的 、 有 联系 的 目标 开始 。 

1. 你 希望 在 空间 里 彼此 接近 的 点 在 硬盘 上 的 存储 位 置 点 也 是 彼此 
接近 的 。 

2. 你 希望 响应 查询 时 返回 尽 可 能 少 的 点 。 

如 果 可 以 实现 这 两 个 目标 ， 你 就 成 功 建 并 了 一 个 基于 空间 数据 集 的 
反应 高 度 灵敏 的 在 线 应 用 系统 。HBase 提 供给 你 完成 这 两 个 目标 的 主要 
工具 是 行 键 。 在 前 几 章 你 看 到 了 如 何在 一 个 复合 行 键 里 为 多 个 属性 建立 
索引 。 根 据 华盛顿 对 比 波哥大 的 例子 ， 我 们 有 一 种 直觉 ， 前 几 间 的 做 法 
不 会 适合 第 一 个 设计 目标 。 先 试 试 没有 坏处 ， 尤 其 是 如 果 你 同时 还 能 学 
点 东西 。 因 为 前 几 间 的 做 法 实现 很 容易 ， 所 以 在 尝试 更 复杂 的 复合 行 键 
之 前 让 我 们 先 评估 一 下 基本 的 复合 行 键 。 

让 我 们 先 来 看 看 数据 。 纽 约 市 有 个 开放 数据 项 目 ， 公 布 了 许多 数据 
集 四 。 其 中 之 一 是 所 有 城市 wifi 热 点 的 列表 回 。 我 们 不 要 求 你 熟悉 GIS 
或 GIS 数 据 ， 所 以 我 们 做 了 一 点 预 处 理 。 下 面 是 那些 数据 的 例子 : 

又 到 ID NAME 

-73.96974759 40.75890919 441 Fedex Kinko's 

-73.96993203 40.75815170 442 Fedex Kinko's 

-73.96873588 40.76107453 463 Smilers 707 

-73.96880474 40.76048717 472 Juan Valdez NYC 
.96974993 40.76170883 219 Startegy Atrium and Cafe 
-73.96978387 40.75850573 388 Barnes & Noble 
-73.96746533 40.76089302 525 McDonalds 
-73.96910155 40.75873061 564 Public Telephone 
-73.9700065S 40.76098703 593 Starbucks 
数据 已 经 被 处 理 成 一 个 由 制 表 符 分 隅 的 文本 文件 。 第 一 行 是 列 名 。 
X 和 Y 列 分 别 是 经 度 和 纬度 值 。 每 条 记录 有 ID、NAME 和 许多 其 他 列 。 

GIS 数 据 的 一 个 好 处 是 非常 适合 图 厂 处 理 ! 不 像 其 他 种 类 的 数据 ， 
从 GIS 数 据 建立 一 个 有 意义 的 视觉 化 展示 不 需要 聚合 一 一 只 需要 把 数据 
点 投射 到 地 图 上 就 可 以 看 到 你 有 什么 了 。 示 例 数据 如 图 8-2 所 示 。 
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根据 前 面 概括 的 目标 ， 现 在 你 为 模式 设计 进行 一 次 相当 有 趣 的 wifi 
热点 检查 。 按 照 目标 1， 在 地 图 上 338 点 接近 441 点 ， 所 以 它们 的 记录 在 
数据 库 里 应 该 是 彼此 接近 的 。 按 照 目 标 2， 如 果 你 想 获取 这 样 两 个 点 ， 
你 也 不 应 该 取 219 点 。 

现在 你 有 了 目标 ， 也 有 了 数据 ， 是 到 考虑 模式 的 时 候 了 。 如 同 你 在 
第 4 章 所 学 的 ， 行 键 的 设计 是 HBase 模 式 中 你 需要 做 的 唯一 最 重要 的 事 
情 ， 所 以 让 我 们 从 这 里 开始 。 
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图 8-2 寻找 wifi， 我 们 希望 看 到 地 理 数据 ， 所 以 把 它们 投射 到 一 个 地 
图 上 。 这 里 是 全 部 数据 集 的 一 个 采样 _ 在 市 中 心 曼 哈 顿 提供 wifi 连接 


的 几 个 地 方 
8.2.1 合 行 键 开始 


前 面 我 们 讲 过 把 X 轴 和 Y 轴 值 串联 起 来 做 行 键 不 是 一 个 有 效 的 模 
式 。 我 们 引用 了 华盛顿 对 比 波哥大 的 例子 作为 证 据 。 让 我 们 看 看 为 什 
么 。 先 按 经 度 再 按 维度 把 示例 数据 排序 ， 然 后 把 点 连接 起 来 。 结 果 如 图 
8-3 所 示 。 妆 我 们 按 这 种 方式 存储 数据 ， 把 扫描 返回 结果 从 1 到 10 排 序 。 
请 特别 注意 第 6 步 和 第 7 步 之 间 的 距离 以 及 第 8 步 和 第 9 步 之 间 的 距离 。 因 
为 先 按 经 度 后 按 纬 度 ， 这 种 排序 导致 了 很 多 南北 位 置 徐 之 间 的 跳跃 。 

这 种 模式 设计 貌似 满足 目标 1， 但 可 能 只 是 因为 示例 数据 少 。 关 于 
目标 2 则 表现 很 糟 料 。 每 次 从 北方 位 置 秘 跳 到 南方 位 置 秘 束 意味 着 你 读 
取 了 不 需要 的 数据 。 还 记得 图 8-1 所 示 的 波哥大 对 比 华盛顿 的 例子 吗 ? 
那 正 是 在 这 种 模式 设计 里 过 到 的 问题 。 空 间 里 彼此 接近 的 点 在 HBase 里 
不 一 定 彼此 接近 。 当 你 把 这 些 转换 成 一 次 行 键 扫描 时 ， 你 不 得 不 取出 期 
望 的 经 度 范围 里 每 一 个 纬度 的 点 。 当 然 你 可 以 在 设计 里 用 临时 办 法 弥补 
这 个 缺陷 。 你 大 概 会 创建 一 个 纬度 过 滤器 ， 作 为 RegexStringComparator 
附加 到 行 过 滤器 〈RowFilter) 来 实现 这 个 补救 措施 。 这 种 方式 至 少 可 以 
避免 把 多 余 的 数据 返回 给 客户 端 。 但 这 不 是 理想 的 办 法 ， 因 为 为 了 执行 
过 小 器 逻辑 ， 过 小 器 还 是 需要 先 从 存储 里 读 出 数据 。 如 果 你 能 避 开 无 关 
的 数据 ， 根 本 不 人 碰 那 些 数 据 是 更 好 的 选择 。 
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图 8-3 一 种 自然 的 空间 模式 设计 的 方法 : 串联 两 个 坐标 轴 的 值 。 这 
种 模式 不 适合 把 空间 位 置 映 射 到 数据 记录 位 置 的 第 一 个 目标 
这 种 模式 设计 在 行 键 里 把 一 个 维度 放 在 男 一 个 维度 前 面 ， 这 暗示 了 
一 种 在 不 同 维度 间 有 次 序 的 关系， 这 是 不 应 该 存在 的 。 你 可 以 有 更 好 的 
选择 。 为 此 ， 你 需要 学 习 一 种 GIS 社 区 想 出 来 的 解决 这 种 问题 的 技巧 
geohash (地 理 散 列 )〉。 


8.2.2 介绍 geohash 
如 前 面 例子 所 示 ， 经 度 和 纬度 在 定义 一 个 点 的 位 置 时 是 同等 重要 
的 。 为 了 使 用 它们 作为 空间 索引 的 基础 ， 你 需要 一 种 结合 它们 的 算法 。 























这 种 算法 会 基于 这 两 个 维度 生成 一 个 值 。 这 样 ， 这 种 算法 生成 的 不 同 值 
将 会 用 一 种 平等 考虑 两 个 维度 的 方式 来 建立 彼此 关系 。geohash 正 是 这 
样 做 的 。 

geohash 是 一 种 把 几 个 值 转换 成 单个 值 的 函数 。 为 了 让 它 工 作 ， 那 
些 值 中 的 每 一 个 必须 来 自 于 一 个 有 固定 范围 的 维度 。 本 例 中 ， 你 打算 把 
经 度 和 纬度 转换 成 单个 值 。 经 度 维度 限定 在 [-180.0, 180.0] 范 围 ， 而 纬度 
维度 限定 在 [-90.0, 90.0] 范 围 。 还 有 很 多 办 法 可 以 把 多 维度 减少 到 单个 维 
度 ， 但 因为 它 的 输出 需要 保持 空间 位 置 ， 所 以 我 们 这 里 使 用 geohash。 

geohash 并 不 是 一 种 完美 无 缺 的 输入 数据 编码 方式 。 对 于 发 烧 友 来 
说 ， 这 个 道理 有 点 儿 像 把 原始 声音 记录 压缩 后 的 MP3。 输 入 数据 大 部 分 
都 在 ， 但 也 只 是 大 部 分 。 和 MP3 一 样 ， 计 算 geohash 时 必须 指定 精度 。 
最 多 能 够 使 用 12 个 geohash 字 符 来 定义 精度 ， 因 为 这 是 能 在 一 个 8 字 市 的 
Long 数 据 类 型 里 容纳 的 并 且 仍 然 能 够 表示 一 个 有 意义 的 字符 串 的 最 高 精 
度 〈 注 : 1 个 geohash 字 符 占 用 5 个 位 ) 。 通 过 截取 散 列 值 尾部 的 字符 ， 
你 可 以 得 到 一 个 低 精 度 的 geohash 和 相应 低 精 度 的 地 图 。 在 全 精度 代表 
一 个 点 的 地 方 ， 部 分 精度 时 在 地 图 上 代表 一 个 区 域 ， 实 际 上 是 空间 里 一 
个 方 框 界定 的 区 域 。 图 8-4 解 释 了 截取 geohash 尾 部 字符 降低 精度 的 表 
现 。 


























图 8-4 截取 geohash 尾 部 字符 。 通过 i 部 减少 字符 可 以 降 
低 hash 代表 的 空间 精度 。 一 个 字符 可 产生 很 大 变化 
对 于 一 个 指定 的 geohash 前 级 ， 在 对 应 的 那个 空间 里 的 所 有 点 都 使 
用 相同 的 前 级 。 如 果 你 能 让 查询 落 在 一 个 geohash 前 级 的 带 边 界 方 框 
里 ， 所 有 [匹配 的 点 将 共享 一 个 相同 的 前 级 。 这 意味 着 你 可 以 在 行 键 上 使 
用 HBase 前 级 扫描 来 得 到 一 组 与 那个 查询 相关 的 点 。 这 样 就 实现 了 目标 
1。 但 是 如 图 8-4 所 示 ， 如 宁 你 选择 过 低 的 精度 ， 
的 数据 。 这 违背 了 目标 2。 你 应 该 在 边界 附近 工作 ， 我 们 稍 后 介 
。 现 在 ， 让 我 们 看 一 些 真 实 的 位 置 点 。 
思考 这 3 个 位 置 ， 即 拉 瓜 迪 亚 机 场 (40.77° N, 73.87 > W) 、 肯 尼 迪 














国际 机 场 〈40.64。 N, 73.78" W) 和 中 央 公 园 (40.78? N, 73.97" W) 。 它 

们 的 坐标 分 别 geohash 处 理 为 值 dr5rzjcw2nze、dr5x1n711mhd 和 

dr5ruzb8wnfr。 你 可 以 在 图 8-5 看 到 地 图 上 的 这 些 点 ， 并 且 看 到 中 央 公 园 

0 按 绝对 距离 看 ， 中 央 公园 离 拉 
迪 亚 机 场 约 5 英里 ， 而 中 央 公 园 离 肯 尼 侦 机 场 约 14 英 里 。 








人 5 相对 距离 。 看 地 图 时 ， 可 以 很 容易 看 到 中 央 公 园 与 肯尼迪 国 





际 机 场 的 距离 比 中 央 公 园 与 拉 瓜 迪 亚 机 场 的 距离 要 远 得 多 。 这 正 是 你 想 
使 用 散 列 算法 重 现 的 关系 
因为 中 央 公 园 离 拉 瓜 迪 亚 彼此 空间 距离 更 近 ， 你 可 以 预期 它们 比 中 
央 公 园 和 肯尼迪 机 场 共享 更 多 的 相同 前 级 字符。 事实 果然 如 此 : 


$ Sort < (echo "dr5rzjcw2nze"; echo "dr5xln7llmhd"; echo "dr5ruzb8wnfr") 
dr5ruzb8wnfr ; 
中 央 公 园 


dr5rzjcw2nze - 
Qr5xln711mha < 一 一 一 | 拉 瓜 迪 亚 机 场 
肯尼迪 国际 机 场 
现在 你 理解 了 geohash 的 工作 原理 ， 我 们 将 演示 给 你 如 何 计 算 生 成 
一 个 值 。 别 担心 ， 你 不 必 散 列 处 理 手 上 所 有 的 点 。 为 了 高 效 运用 
HBase， 理 解 其 工作 原理 是 有 帮助 的 。 使 用 geohash 也 类 似 ， 理 解 其 构造 
原理 将 有 助 于 你 理解 边界 问题 。 


8.2.3 理解 geohash 


你 已 经 看 到 的 geohash 值 都 被 显示 为 Base32 编 码 字母 表 甸 的 字符 
串 。 事 实 上 ，geohash 的 位 序列 按照 经 度 和 纬度 精度 递增 的 顺序 依次 排 
列 。 

例如 ，40.78° N 是 纬度 。 它 落 在 [-90.0, 90.0] 范 围 的 上 半 区 内， 所 以 
它 的 第 一 个 geohash 位 是 1。 因 为 40.78 落 在 [0.0, 90.0] 范 围 的 下 半 区 ， 它 
的 第 二 位 是 0。 第 三 个 范围 是 [0.0, 45.0]， 洲 在 上 半 区 ， 所 以 第 三 位 是 
1。 





通过 对 半 切 分 值 的 区 间 和 确定 落 在 哪 半 区 ， 计 算出 每 个 维度 对 应 的 
数据 位 。 如 果 数 据点 大 于 或 等 于 中 点 ， 用 1 表示 ， 否 则 ， 用 0 表示 。 这 个 
过 程 重复 进行 ， 一 次 一 次 对 半 切 分 范围 ， 然 后 根据 目标 点 的 位 置 选择 1 
或 0。 在 经 度 和 纬度 值 上 都 执行 这 种 二 进 制 分 区 方式 。 最 后 通过 编码 把 
这 些 位 编排 在 一 起 生成 散 列 值 ， 而 不 是 单独 使 用 每 个 维度 的 位 序列 。 这 
种 空间 分 区 方式 是 geohash 有 空间 位 置 属性 的 原因 。 正 是 每 个 维度 的 位 
的 编排 方式 支持 了 前 绷 匹 配 精度 查询 的 技巧 。 

现在 理解 了 每 个 维度 是 如 何 编码 的 ， 让 我 们 计算 一 个 完整 值 。 这 种 
区 间 二 等 分 过 程 和 位 选择 一 直 重复 ， 直 到 达到 预期 的 精度 。 经 度 和 纬度 
两 者 一 起 计算 出 一 个 位 序列 ， 它 们 的 位 是 相互 交织 的 ， 先 是 经 度 ， 再 是 














纬度 ， 和 直到 目标 精度 。 图 8-6 解 释 了 这 个 过 程 。 一 旦 位 序列 计算 出 来 ， 
它 会 被 编码 生成 最 后 的 散 列 值 。 
现在 你 理解 了 geohash 对 你 有 用 的 原因 以 及 它 的 工作 原理 ， 让 我 们 


把 它 用 到 你 的 行 键 里 。 
40.78°N 73.97°W 
上 "| 
-900 0.0 | 900 -i800 | 0.0 180.0 
0 
00 | 900 —180.0 "| 0.0 
一 一 | 
0.0 45.0 _900 00 
40.78°N 
101 
011001 
010 
73.97°W 


40.78 N. 73.97 W 的 
6 位 精度 的 geohash 值 





图 8-6 构造 一 个 geohash。 来 自 于 经 度 和 纬度 的 前 3 个 位 交织 生成 一 
个 6 位 精度 的 geohash。 我 们 前 面 讨论 的 示例 数据 执行 该 算法 输出 到 7 个 
Base32 字 符 ， 即 35 位 精度 





因为 geohash 计 算 开 销 不 大 ， 对 于 行 键 来 说 geohash 是 个 极 佳 的 选 
择 ， 行 键 的 前 绥 帮 助 你 寻找 最 近 的 邻居 。 让 我 们 把 geohash 应 用 到 示例 


数据 ， 按 照 geohash 排 序 ， 看 看 在 前 绥 上 如 何 表 现 。 我 们 使 用 一 个 库 色 
计算 出 每 个 点 的 geohash， 添 加 一 列 到 原来 的 数据 里 。 示 例 里 的 所 有 效 


据 相 对 比较 接近 ， 所 以 你 可 以 预期 在 这 


GEOHASH 
dr5rugb9rwj]j 
dr5rugbge05m 
dr5rugbvggge 
dr5rugckg406 
dr5ruulxlict8 
dr5ruu29vytq 
dr5ruu2y5vkb 
dr5ruu3d7x0b 
dr5ruu693jhm 


的 确 如 此 ， 


oJIAUVURAOVDPp 


-GIIS203 05 
SG209387 WO, 
=7352926974759 405 
T3969L0155 0, 
-73.96880474 40. 
TNSS 0 
30n/A9Y3 Os 
=T3.968013588 WD. 
-T3961746533 二 0 
前 缀 共有 5 个 相同 





< 尝 太 上 好 多 前 级 是 里 登 的 ; 
NAME 

75815170 442 Fedex Kinko's 
75850573 388 Barnes & Noble 
75890919 441 Fedex Kinko's 
75873061 564 Public Telephone 
76048717 472 Juan Valdez NYC 
76098703 593 Starbucks 
76170883 219 Startegy Atrium and Cafe 
76107453 463 Smilers 707 
76089302 525 US 
字符 。 还 不 错 ! 这 意味 着 你 使 用 一 个 


简单 的 范围 扫描 就 可 以 进行 距离 查询 和 满足 目标 1。 为 满足 上 下 文 需 
要 ， 图 8-7 把 这 些 数 据 放 到 了 地 图 上 。 


图 8-7 观察 实战 中 前 级 的 匹配 情况 。 如 果 目 标 搜索 在 这 个 区 域 ， 一 

个 简单 的 行 键 扫描 就 可 以 得 到 你 需要 的 数据 。 不 仅 如 此 ， 返 回 结果 的 顺 
序 比 图 8-3 所 示 的 顺序 更 合理 

这 比 复合 行 键 方式 好 得 多 ， 但 也 决 不 是 完美 的 。 所 有 这 些 扣 密 集 放 
在 一 起 ， 彼 此 相差 几 个 街区 而 已 。 但 为 什么 只 匹配 了 12 个 字符 中 的 5 
个 ? 我 们 希望 空间 接近 的 数据 能 够 存储 得 更 近 一 些 。 回 想 图 8-4， 通 过 5 
个 、6 个 、7 个 字符 的 前 级 扫 插 履 盖 的 空间 区 域 在 大 小 上 的 区 别 是 显著 的 
一 一 远 超 过 几 个 街区 。 如 果 你 能 做 两 次 6 个 字符 前 级 的 扫描 而 不 是 一 次 5 
个 字符 前 级 的 扫描 ， 那 么 你 就 朝 着 目标 2 前 进 了 一 大 步 。 或 者 ， 做 5 次 或 
6 次 7 个 字符 前 缀 的 扫描 会 怎么 样 呢 ? 这 次 市 着 更 多 的 视角 ， 让 我 们 看 看 








图 8-8。6 个 字符 前 级 和 7 个 字符 前 级 的 geohash 方 框 是 重 车 的 。 

和 目标 查询 区 域 相 比 ，6 个 字符 前 级 的 匹配 区 域 太 大 了 。 更 糟糕 的 
是 ， 这 次 查询 需要 执行 两 次 那些 区 域 太 大 的 6 个 字符 前 级 的 扫描 。 从 上 
下 文 可 以 看 出 ，5 个 字符 相同 前 级 包含 的 数据 更 是 远 超过 你 的 需要 。 依 
赖 前 缀 匹配 的 做 法 导致 扫描 了 大 量 多 余 的 数据 。 当 然 ， 这 是 一 种 取舍 。 
如 果 你 的 数据 在 这 个 精度 水 平 不 算 稠密 ， 扫 描 执行 得 少 ， 那 么 这 种 耗 时 
长 点 儿 的 扫描 也 不 是 多 大 的 问题 。 如 果 扫 描 不 返回 多 余数 据 ， 你 就 可 以 
把 远程 过 程 调用 〈RPC) 压力 降 到 最 低 。 如 果 你 的 数据 是 稠密 的 ， 扫 描 
运行 次 数 多 ， 那 么 耗 时 较 短 的 扫描 可 以 减少 网 络 上 传输 的 多 余 位 置 点 的 
数量 。 此 外 ， 现 在 还 有 一 件 事情 正在 变 得 更 为 有 利 ， 那 就 是 并 行 计算 。 
虽然 每 个 短 扫描 可 以 在 自己 的 CPU 核 上 并 行 执行 ， 但 是 整个 查询 的 速 
度 仍 然 由 最 慢 的 那个 扫描 决定 。 
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图 8-8 重 登 的 geohash 方 框 的 前 缀 匹配 情况 。 使 用 6 个 字符 前 缀 ， 碍 
询 结果 里 有 很 多 多 余 的 、 不 需要 的 区 域 。 一 种 理想 的 做 法 是 只 使 用 7 个 
字符 前 级 ， 从 而 把 网 络 上 传送 的 多 余数 据 量 降 到 最 低 
让 我 们 卷 动 地 图 到 曼哈顿 的 另 一 个 部 分 ， 离 我 们 已 经 研究 的 地 方 并 
不 远 。 请 看 图 8-9。 注 意 中 心 方 框 的 geohash 有 6 个 前 绥 字 符 〈dr5ruz) ， 
与 东 向 、 东 南 同 和 南 向 的 方 框 相同 。 但 是 只 有 5 个 字符 (dr5ru〉 和 和 西向 
和 西南 同方 框 相同 。 如 果 5 个 相同 字符 前 绥 是 糟糕 的 ， 那 么 北边 整 行 匹 
配 的 前 缀 更 是 糟 糙 ， 只 有 2 个 字符 〈dr) 相同 ! 这 不 会 每 次 都 发 生 ， 但 
是 的 确 以 怀 人 的 高 频率 发 生 。 作 为 一 个 反面 例子 ， 东 南 回 方 杠 
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(dr5ruz9) 的 全 部 8 个 邻居 都 有 6 个 相同 字符 前 组 。 
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图 8-9 可 视 化 geohash 边 界 情况 。 这 种 编码 不 是 完美 无 缺 的 。 这 里 有 
一 个 例子 。 想 象 一 下 ， 如 果 最 近邻 居 搜 索 洲 在 了 插图 中 第 头 指 问 的 地 
方 ， 很 可 能 你 会 发 现 这 个 方 框 的 邻居 只 有 两 个 相同 字符 前 绥 
geohash 是 有 效 的 ， 但 是 你 不 能 只 是 使 用 一 次 简单 的 自然 前 级 匹 
配 。 根 据 这 些 插图 ， 看 起 来 这 种 数据 的 优化 处 理 方式 是 扫描 中 心 方 框 和 
它 的 8 个 邻居 。 在 把 不 必要 的 网 络 IO 数 据 量 降 到 最 低 的 同时 ， 这 种 方式 
将 确保 正确 的 结果 。 季 运 的 是 ， 针 对 那些 邻居 的 计算 操作 只 是 简单 的 位 
操作 。 解 释 那 种 操作 的 细节 超出 了 我 们 的 兴趣 了 犯 围 ， 所 以 我 们 相信 
geohash 库 能 够 提供 那 种 特性 。 
不 是 所 有 线性 化 技术 都 可 以 用 来 创建 各 维度 平等 的 geohash 











geohash 是 在 近似 模拟 数据 空间 。 也 就 是 说 ， 它 是 一 个 基于 多 维度 
输入 值 计 算 单 维度 输出 值 的 函数 。 本 例 中 ， 输 入 的 维度 只 有 2， 但 是 你 
可 以 想象 有 更 多 维度 时 如 何 工 作 。 这 是 一 种 线性 化 的 方式 ，geohash 不 
是 唯一 的 一 个 。 其 他 技术 ， 诸 如 Z 轴 次 序曲 线 和 项 尔 伯 特 曲线 等 ， 也 是 
常见 的 。 它 们 都 属于 空间 填充 曲线 类 别 : 这 种 曲线 定义 为 单一 的 、 不 中 
断 的 、 接 触 空间 所 有 分 区 的 线条 。 这 些 技 术 无 法 在 一 维 线条 上 完美 地 建 
模 二 维 平 面 并 且 在 那些 空间 维持 对 象 的 相关 特征 。 因 为 geohash 的 错误 
情况 比 其 他 技术 少 ， 所 以 我 们 选择 了 geohash。 








8.3 实现 最 近邻 居 查 询 


现在 该 通过 执行 查询 来 实践 新 得 到 的 geohash 知 识 了 。 记 住 你 要 回 
答 的 问题 : “5 个 最 近 的 w 进 热点 在 哪里 ? ”这 上 听 起 来 像 是 有 3 个 参数 的 函 
数 : 目标 位 置 的 经 度 和 纬度 ， 以 及 最 大 返回 结果 数 ， 如 同 下 面 这 一 行 里 
的 东西 : 
public Collection<QueryMatch> queryKNN (double lat, double lon, int n) 1 
QueryMatch 是 一 个 用 来 获取 碍 询 结果 的 数据 类 。 涉 及 如 下 步骤 。 

(1) 构造 目标 GeoHash。 

(2) 过 有 历 它 和 它 的 8 个 邻居 来 寻找 候选 结果 。 每 次 扫描 的 结果 按照 
离 目 标点 的 距离 排序 并 且 限 定 为 只 保留 n 个 距离 最 近 的 结果 。 

(3) 对 9 次 扫描 的 结果 进行 排序 并 限定 返回 数量 ， 计 算出 最 后 n 个 
结果 返回 给 调用 者 。 

你 将 在 两 个 函数 里 实现 这 些 步骤 一 个 用 来 处 理 HBase 扫 描 ， 男 一 
个 处 理 geohash 和 聚合 。 第 一 个 函数 的 盆 代 人 码 如 下 : 





takeN (origin, prefix, n): 


table = HBase.table('wifi') 从 wifi 表 里 读 出 前 缀 匹配 的 记录 
scanner = table.scan (prefix) 4 
results = [] 


for result in scanner: 
results.add (result) 

comp = distance from(origin) 

results = sort(comp, results) 

return limit(n, results) < 


| 按照 离 origin 的 距离 对 results 进行 排序 





返回 距离 最 近 的 n 个 结果 
这 里 没有 什么 特殊 的 东西 ， 你 像 前 面 使 用 的 那样 访问 HBase。 你 不 
再 要 保留 每 次 扫描 的 全 部 查询 结果 ， 只 保留 距离 最 近 的 n 个 。 这 样 减少 
了 碍 询 过 程 的 内 存 使 用 ， 尤 其 是 在 你 被 迫使 用 比 预 期 更 短 的 前 缀 时 。 
主要 仁 询 功能 建立 在 takeN 辅 助 函 数 上 。 下 面 是 它 的 伪 代 码 : 


queryKNN(lat, lon, n): 











origin = [lats Jon] | geohash 生 

target = geohash(lat, lon) < 一, 访 必 arget 使 用 target 散 列 对 象 调 
results = [] 并 帮 | 大 用 takeN 函数 …… 
results.addAll (takeN (origin, target, n) 获 列 | 象 = 

for neighbor in target.neighbors: | 所 有 邻居 同样 处 理 


results.addAll (takeN (origin, neighbor, n) 
comp = distance from(origin) 
results = sort(comp, results) 调用 和 前 面 一 样 的 


return limit(n, results) 返回 最 近 的 n distance 函数 
个 结果 

queryKNN 函 数 先 从 查询 目标 生成 geohash， 然 后 计算 出 需要 扫描 的 
9 个 前 级 ， 最 后 合并 结果 。 如 你 在 图 8-9 中 所 看 到 的 ， 全 部 9 个 前 级 都 应 
该 被 扫描 以 保证 正确 的 结果 。 在 takeN 中 用 来 限制 内 存 占用 的 技术 ， 在 
这 里 再 次 被 用 来 减少 最 终 返 回 的 结果 。 如 果 你 愿意 ， 这 也 是 可 以 使 用 并 
行 代码 的 地 方 。 

现在 让 我 们 把 伪 代 码 转换 成 Java 实 现 。Google 的 Guava 库 包 提供 了 
一 个 方便 的 类 ， 我 们 可 以 通过 MinMaxPriorityQueue 来 管理 有 序 的 、 大 小 
有 限 的 结果 数据 桶 (bucket) 。 它 需要 接收 一 个 定制 的 Comparator 来 维 
持 次 序 和 实施 回收 策略 ， 你 将 需要 为 QueryMatch 类 构建 一 个 
Comparator。 这 个 Comparator 的 基础 是 离 查 询 目 标 原 点 的 距离 。 
java.awt.geom.Point2D 类 提供 给 你 一 个 简单 的 距离 函数 ， 这 个 函数 足以 














满足 你 的 需要 Ho 。 让 我 们 从 辅助 类 QueryMatch 和 DistanceComparator 开 


始 。 

public class QueryMatch { 
publie! String La a 
public String hash; 只 有 数据 
public double lon, lat; 
public double distance = Double.NaN; 


public QueryMatch(string id, String hash, double lon, double lat) { 
this,id = id; 
this.hash = hash; 
this.lon = lon; 
this.Llat ms 1 
} 
} 


public class DistanceComparator implements Comparator<QueryMatch> { 
Point2D origin; 


public DistanceComparator (double lon, double lat) { 
this.origin = new Point2D.Double(lon, lat); 


} 


public int compare (QueryMatch ol1, QueryMatch o2) { 
if (Double.isNaN(ol.distance)) { 
ol.distance = origin.distance(ol.lon, ol.1lat); 


} 


if (Double.isNaN(o2.distance)) { 

o2.distance = origin.distance(o2.1lon, o2.1at); 调用 Point2D 
} 的 距离 方法 
return Double.compare (ol.dqistance，o2.dqistance) ; 


} 
} 


修改 Comparator 里 的 对 象 不 是 常规 做 法 

通常 你 不 会 用 代码 例子 里 的 方式 写 Comparator。 正 常 代 码 里 不 要 这 
么 做 ! 这 里 我 们 这 样 做 是 为 了 更 容易 检查 文本 里 的 结果 。 这 只 是 解释 这 
里 发 生 了 什么 。 真 的 ， 请 不 要 这 样 做 ! 

为 了 得 到 排 好 序 的 结果 ， 现 在 需要 一 个 Java 版 本 的 takeN， 这 个 方 
法 执行 HBase 扫 描 。 每 个 前 级 需要 排序 和 限制 返回 的 空间 结果 集合 ， 所 
以 在 prefix 和 n 之 外 还 需要 Comparator。 这 种 做 法 不 用 像 伪 代码 那样 接收 
忒 点 作为 输入 。 





Collection<QueryMatch> takeN (Comparator<QueryMatch> comp, 
String prefix, 
int n) throws IOException { 
Collection<QueryMatch> candidates 


= MinMaxPriorityQueue.orderedBy (comp) 限制 只 返回 n 个 距离 最 近 
.maximumSize (n) 的 结果 ， 并 按 距离 排序 
.Create(); 


Scan scan = new Scan(prefix.getBytes()); 
scan.setFilter (new PrefixFilter (prefix.getBytes())).; 


scan.addFamily (FAMILY).,; 把 扫描 缓存 设置 为 大 于 1 的 值 ， 
scan.setMaxVersions (1) ; 可 以 极 大 减少 RPC 调用 
scan.setCaching(50); 


HTableIinterface table = pool.getTable ("wifi"),; 


ResultScanner scanner = table.getScanner (Scan) ; 从 wifi 表 读 取 前 绥 
for (Result r : scanner) { 匹配 的 记录 
String hash = new String(r.getRow()); 
String id = new String(r.getValue (FAMILY, ID)); 
double lon = Bytes.toDouble(r.getValue (FAMILY, X COL)).; 
double lat = Bytes.toDouble(r.getValue (FAMILY, Y COL)); 


candidates.add(new QueryMatch(id, hash, lon, lat)).; oo 
} ”| 收集 候选 位 置 


table.close(); 
return candidates; 


这 里 使 用 第 2 章 中 学 过 的 相同 的 表 扫 描 。 需 要 指出 的 新 东西 是 ， 这 
里 调用 了 Scan.setCaching() 方 法 。 该 方法 调用 把 扫描 器 每 次 RPC 调 用 时 返 
回 的 记录 数 设 置 为 50 一 一 可 以 是 任意 数 ， 取 决 于 需要 扫描 的 记录 数 和 每 
条 记录 大 小 。 对 于 示例 数据 集 ， 它 的 记录 数 很 少 ， 其 思路 是 限制 通过 
geohash 扫 摘 的 记录 数 。 在 这 个 精度 上 ，50 应 该 远 超过 你 期 望 的 一 次 扫 
描 拉 出 的 数据 的 数量 。 你 需要 调试 这 个 数字 来 为 自己 的 使 用 场景 决定 一 
个 最 优 的 设置 。HBase 用 户 邮 件 列 表 上 十 有 一 个 有 用 的 帖子 上 ， 那 里 
详细 描述 了 围绕 这 个 设置 你 需要 平衡 的 东西 。 因 为 什么 数 都 可 能 比 它 的 
默认 值 1 要好， 一 定 要 调试 这 个 设置 。 

最 后 ， 把 前 面 定义 的 代码 组 合 起 来 。 从 目标 得 询 点 计算 GeoHash， 
并 且 基 于 这 个 前 组 调用 takeN， 周 围 的 8 个 邻居 也 都 如 此 操作 。 然 后 使 用 
MinMaxPriorityQueue 类 限制 takeN 返回 的 结果 数 ， 全 部 9 组 结果 聚合 在 











一 起 ， 同 样 使 用 MinMaxPriority Queue 类 限制 最 后 的 结果 数 。 


public Collection<QueryMatch> query (double lat, double lon, int n) 
throws IOException { 
DistanceComparator comp = new DistanceComparator(lon, lat).; 
Collection<QueryMatch> ret 
= MinMaxPriorityQueue .orderedBy (comp) 


.maximumSize (n) geohash 生成 
.Create() ; target 散 列 对 象 

GeoHash target = GeoHash.withCharacterPrecision(lat, lon, 7); < 一 
pe pr 本 使 用 target 
or eoHas : target .getAdjacent : \|E 
- 对象 调 
ret.addAll (takeN(comp, h.toBase32(), n)); | …… 所 有 邻 散 列 i 象 调 
} 居 同 样 处 理 用 takeN 后 

数 ni 


return ret; 


} 
创建 Comparator 的 实例 很 简单 ， 创 建 队 列 的 实例 很 简单 ，8 个 


geohash 邻居 的 for 循 环 也 很 简单 。 这 里 唯一 特殊 的 事情 是 GeoHash 的 构 
造 。 这 个 库 允 许 你 指定 字符 精度 。 本 章 前 面 ， 你 想 对 空间 里 的 一 个 点 做 
散 列 处 理 ， 所 以 你 使 用 了 能 达到 的 最 大 精度 一 一 12 个 字符 长 。 这 里 的 情 
况 有 些 不 同 。 你 不 是 算 一 个 点 的 散 列 值 ， 而 是 一 个 有 边界 的 方 框 。 如 果 
选择 的 精度 太 高 ， 你 不 能 查询 足够 大 的 区 域 来 找到 n 个 匹配 值 ， 特 别 是 
当 n 比 较 大 时 。 如 果 选 择 的 精度 太 低 ， 你 的 扫描 将 扫 过 在 数量 级 上 超过 
需要 的 数据 。 对 于 这 个 数据 集 和 这 个 查询 ， 使 用 7 个 字符 的 精度 是 合理 
的 。 不 同 的 数据 和 不 同 的 n 值 会 需要 不 同 的 精度 。 找 到 这 种 平衡 可 能 是 
很 微妙 的 ， 所 以 最 好 的 建议 是 建立 查询 模型 并 进行 试验 。 如 果 所 有 查询 
大 体 上 相同 ， 你 也 许 能 确定 一 个 值 ; 否则 ， 你 将 需要 根据 得 询 参数 反复 
试探 来 确定 一 个 精度 。 无 论 哪 种 情况 ， 你 都 需要 了 解 你 的 数据 和 应 用 系 
统 ! 

根据 得 询 而 不 是 数据 设计 你 的 扫描 

请 注意 ， 我 们 建议 根据 应 用 层次 的 查询 选择 geohash 的 前 级 精度 。 
你 始终 要 根据 查询 设计 你 的 HBase 扫描 ， 而 不 是 根据 数据 设计 它们 。 在 
应 用 系统 “建成 ?很 久 以 后 ， 数 据 会 随 着 时 间 变 化 。 如 采 把 得 询 扫 拉 建立 
在 数据 上 上， 查询 性 能 会 随 着 数据 一 起 改变 。 这 意味 着 一 个 今天 快速 的 查 























询 明 天 就 会 变 成 慢 速 的 查询 。 根 据 应 用 层次 的 查询 建 并 扫描 则 意味 
者 “快速 查询 ”相对 于 “ 慢 速 查询 ”始终 快 一 些 。 如 果 你 把 扫 摘 和 应 用 层次 
查询 连 在 一 起 ， 你 的 应 用 系统 的 用 户 会 享受 更 一 致 的 体验 。 

你 可 以 组 闭 一 个 简单 的 main0， 然 后 看 看 一 切 是 否 工作 正常 。 好 
的 ， 差 不 多 啦 。 你 还 需要 加 载 数据 。 对 于 一 个 制 表 符 分 隔 值 〈tab- 
separated value) 的 文件 ， 你 不 会 对 解析 它 的 细节 感 兴趣 ， 你 关心 的 是 如 
何 使 用 GeoHash 库 构造 行 键 使 用 的 散 列 值 。 这 部 分 代码 非常 简单 。 这 些 
需要 加 载 的 都 是 数据 点 ， 所 以 使 用 12 个 字符 精度 。 再 说 一 表 ， 这 是 你 
能 构造 的 最 长 的 可 打印 的 geohash， 并 仍然 可 以 容纳 在 一 个 Java long 数 
据 类 型 里 : 


double lat = Double.parseDouble(row.get ("lat")),; 
double lon = Double.parseDouble(row.get ("lon")); 
String rowkey = GeoHash.withCharacterPprecision(lat, lon, 12) .toBase32(), 


现在 你 有 了 所 有 需要 的 东西 。 我 们 先 从 打开 Shell 并 创建 一 张 表 开 
始 。 这 里 列 族 不 是 特别 重要 ， 所 以 我 们 选择 一 个 短 的 名 字 : 


$ echo "create 'wifi', 'a'" | hbase shell 

HBase Shell; enter 'help<RETURN>' for list of supported commands. 
Type "exit<RETURN>" to leave the HBase Shell 

VersLor V92 Ll, L298924， ri Mar 六 TpwSBs34 UEG 过 和 12 











create 'wifi', 'a' 
0 row(s) in 6.5610 seconds 


测试 数据 已 经 在 项 目 里 打 好 包 ， 所 以 一 切 都 准备 就 绪 。 让 我 们 编 详 
应 用 系统 ， 然 后 在 完整 数据 集 上 运行 Ingest 工 具 : 


$ mvn clean package 


[NO se ed 
[INFO] BUILD SUCCESS 
PE 
$ java -cp target/hbaseia-gis-1.0.0.jar \ 

HBaseIA.GIS.Ingest \ 

wifi data/wifi 4326.txt 
Geohashed 1250 records in 354ms. 


看 起 来 不 错 ! 该 运行 一 次 查询 了 。 人 至 于 目标 点 的 选择 ， 让 我 们 要 个 





花招 ， 我 们 选择 一 个 已 有 的 数据 点 坐标 。 如 果 距 离 算法 完全 没有 问题 ， 
那个 点 应 该 是 第 一 个 返回 结果 。 我 们 把 ID 593 作为 查询 的 中 心 : 


$ java -cp target/hbaseia-gis-1.0.0.jar \ 
HBaseIA.GIS.KNNQuery -73.97000655 40.76098703 5 
Scan over 'dr5ruu2' returned 2 candidates. 
Scan over 'dr5ruu8' returned 0 candidates. 
Scan over 'dr5ruu9' returned 1 candidates. 
Scan over 'dr5ruu3' returned 2 candidates. 
Scan over 'dr5ruul' returned 1 candidates. 
Scan over 'dr5ruu0' returned 1 candidates. 
Scan over 'dr5rusp' returned 0 candidates. 
Scan over 'dr5rusr' returned 1 candidates. 
Scan over 'dr5rusx' returned 0 candidates. 


<QueryMatch: 593, drS5ruu29vytq, -73.9700, 40.7610,， 0.00000 > 
<QueryMatch: 249 QESEUUZYSVKD S7506907. M0 T7697) (0.Q0077 3 
<QueryMatclhi: T1132 dr5ruusdotn9s = 一 73296887 ‘40 761J7 Qa00120 > 
<QueryMatch: 463, dr5ruu3d7x0b, -73.9687, 40.7611, 0.00127 > 
OUuervMatohs W125 GZ5EUUTLYXLCE8 =739688 dO I6USs OOO0L30 > 


太 棒 了 ! 匹配 查询 目标 的 那个 点 ID 593， 第 一 个 出 现 了 ! 我 们 已 经 
添加 了 一 点 儿 调 试 信息 来 帮助 理解 这 些 结果 。 第 一 组 输出 表示 每 一 个 前 
级 扫描 贡献 了 多 少 个 中 间 结 果 。 第 二 组 输出 是 最 终 的 匹配 结果 。 打 印 出 
来 的 字段 分 别 是 ID 、geohash、 经 度 、 纬 度 和 离 查询 目标 的 距离 等 。 这 
个 查询 结果 在 空间 上 的 布局 如 图 8-10 所 示 。 
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图 8-10 可 视 化 显示 查询 结果 。 在 寻找 匹配 项 的 查询 坐标 周边 进行 这 
种 简单 的 螺旋 式 搜 索 。 一 种 更 智能 的 实现 会 考虑 中 心 空 间 区 域 里 的 查询 
本 一 旦 找到 最 少 匹 配 数量 ， 搜 索 束 会 跳 过 所 有 远 一 点 的 邻居 

酷 ， 对 吧 ? 你 可 能 注意 到 了 ， 所 有 比较 的 工作 发 生 在 操作 的 客户 
端 。 ee 后 期 处 理 都 在 客户 病 进 行 。 但 是 你 部 署 
的 是 一 个 HBase 集 群 ， 所 以 让 我 们 看 看 能 人 否 让 集群 来 执行 计算 工作 。 或 
许 你 可 以 使 用 一 些 其 他 特性 把 HBase 扩 展 成 一 个 成 熟 的 分 布 式 地 理 信息 


查询 引擎 








8.4 把 计算 工作 推 往 服 务 器 端 





我 们 的 示例 数据 集 相 当 小 ， 只 有 1200 个 点 ， 并 且 每 个 点 也 没有 太 
多 属性 。 但 是 ， 数 据 会 增长 ， 用 户 总 是 需要 更 快 的 体验 。 尽 可 能 把 工作 
推 往 服 务 器 端 一 般 来 说 是 个 好 主意 。 如 你 所 知 ，HBase 提 供 了 两 种 机 制 
来 把 计算 工作 推 往 RegionServer， 这 两 种 机 制 是 过 滤器 〈filter) 和 协 处 
理 嚣 (coprocessor) 。 本 节 中 ， 你 将 在 已 经 开始 的 wifi 例 子 上 进行 扩 
展 。 你 将 实现 一 种 新 的 地 理 信息 查询 ， 并 且 使 用 一 个 定制 的 过 滤器 来 完 
成 查询 。 实 现 一 个 定制 的 过 滤器 会 产生 一 些 操作 开销 ， 所 以 在 开始 前 你 
可 以 改进 一 下 使 用 geohash 的 方式 。 

先 从 改变 三 询 开 始 。 现 在 不 再 查找 特定 位 置 附 近 的 w 进 热点 了 ， 而 
是 查找 申请 空间 的 所 有 热点 。 尤 其 是 ， 你 将 回答 这 个 查询 请 求 :“ 在 时 
代 广 场 街 区 里 都 有 哪些 wifi 热点 ? ”包含 时 代 广 场 的 空间 是 个 相对 简单 
的 、 可 以 手绘 的 形状 : 只 有 4 个 角 。 你 可 以 用 这 些 点 (40.758703。 N， 
73.980844° W)、(40.761369° N, 73.987214° W)、(40.756400° N， 
73.990839° W)、(40.753642° N, 73.984422° W) 来 定义 这 个 空间 。 它 的 查 
询 区 域 以 及 数据 如 图 8-11 所 示 。 如 同 你 看 到 的 ， 你 预期 在 查询 结果 里 应 
该 得 到 大 约 25 个 点 。 
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图 8-11 时 代 广 场 街区 内 的 查询 。 我 们 使 用 Google Earth 来 打量 一 下 
时 代 广 场 的 4 个 角 。 那 些 华丽 的 标志 牌 好 像 吸 收 了 w 这 信号 ， 和 城市 其 他 
部 分 相 比 这 里 的 wifi 不 算 密 集 。 你 可 以 预期 大 约 有 25 个 点 匹配 你 的 查询 

这 是 一 个 相当 简单 的 形状 ， 可 以 铺 在 地 图 上 手绘 出 来 。 这 是 一 个 简 
单 多 边 形 。 你 在 查询 里 可 能 有 很 多 原因 需要 用 到 多 边 形 。 例 如 ， 像 Yelp 
的 一 个 服务 需要 给 用 户 提 供 预 定义 的 描画 当地 地 区 边界 的 多 边 形 。 甚 至 
你 可 能 允许 用 户 手绘 他 们 的 查询 多 边 形 。 这 里 你 将 要 采用 的 方式 可 以 处 
理 这 种 简单 长 方形 ， 对 于 更 复杂 的 形状 也 同样 雪 效 。 

查询 区 域 形 状 确定 以 后 ， 该 设计 一 个 实现 查询 的 计划 了 。 就 像 k 个 
最 近邻 后 的 查询 实现 一 样 ， 你 希望 该 实现 可 以 把 从 HBase 中 读 出 的 候选 











位 置 点 的 数量 降 到 最 低 。 你 可 以 使 用 geohash 索 引 ， 它 带 着 你 走 得 相当 
远 。 第 一 步 是 把 查询 多 边 形 转换 成 一 组 geohash 扫 描 。 如 同 你 在 上 一 个 
查询 里 掌握 的 ， 这 会 提交 给 你 所 有 的 候选 位 置 点 ， 并 且 没 有 太 多 多 余数 
据 。 第 二 步 是 把 包含 在 查询 多 边 形 里 的 点 拉 出 来 。 这 两 步 需要 一 个 几何 
函数 库 的 帮助 。 很 幸运 ， 在 JTS 拓 扑 套 件 (JTS) .名 里 有 这 样 一 个 库 。 
你 可 以 使 用 这 个 函数 库 在 geohash 和 查询 多 边 形 之 间架 起 桥梁 。 


8.4.1 其 于 查询 多 边 形 创 建 一 次 geohash 扫 描 


为 了 创建 这 一 步 查 询 ， 你 需要 准确 了 解 要 扫描 哪些 前 级 。 和 以 前 一 
样 ， 你 希望 把 扫描 的 次 数 和 扫描 宪 盖 的 空间 区 域 降 到 最 小 。 
GeoHash.getAdjacent() 方 法 给 了 你 一 个 简便 的 办 法 ， 可 以 在 使 用 低 精 度 
geohash 之 前 扩大 查询 区 域 。 让 我 们 使 用 该 方法 来 找到 一 组 合适 的 扫描 
一 组 最 小 包围 的 前 级 。 在 讨论 算法 之 前 ， 先 掌握 几 个 几何 学 技巧 是 
有 帮助 的 。 

你 要 使 用 的 第 一 个 技巧 是 形 心 (centroid) 0D， 多 边 形 的 几何 中 心 
点 。 这 个 查询 的 参数 是 一 个 多 边 形 ， 每 个 多 边 形 有 一 个 形 心 。 你 将 使 用 
形 心 开 始 计 算 最 小 包围 前 级 的 集合 。 如 果 你 有 一 个 Geometry 实 例 ，JTS 
可 以 使 用 Geometry.getCentroid() 方 法 来 计算 这 个 形 心 。 因 此 你 需要 一 种 
方法 ， 能 够 基于 查询 参数 实例 化 生成 一 个 Geometry 对 象 。 有 一 个 叫做 
WKT HI (well-known text) 的 简单 文本 格式 ， 可 以 用 来 描述 几何 形 
状 。 把 这 个 时 代 广 场 的 查询 转换 成 WKT 形 式 ， 如 下 所 示 : 

POLYGON ((-73.980844 40.758703 ， 
-73.587214 40.761369, 
-73.990839 40.756400 ， 
-7025 区 交友， 
-73.980844 40.758703) 】 
这 是 数据 空间 里 的 时 代 广 场 。 从 技术 上 说 ， 多 边 形 是 一 个 封闭 的 形 

















状 ， 所 以 第 一 个 和 最 后 一 个 点 必须 相同 。 应 用 系统 接收 WKT 作为 查询 
输入 。JTS 提 供 了 一 个 WKT 的 解析 器 ， 你 可 以 使 用 它 基 于 查询 输入 创建 


一 个 Geometry 实例 。 一 旦 你 有 了 这 个 Geometry 实 例 ， 只 需要 调用 一 个 


方法 


就 可 以 得 到 形 心 : 
String wkt 


而 


WKTReader reader = new WKTReadqeLr () ; 


.read (WwWKt) ; 
query.getCentroid(); 


Geometry query = reader 
Point queryCenter = 


带 有 形 心 的 查询 多 边 形 如 图 8-12 所 


人 No 





geohash 集 合 的 地 方 

现在 你 知道 了 查询 多 边 形 的 形 心 ， 这 是 开始 计算 geohash 的 地 方 。 
但 问题 是 ， 你 不 知道 需要 多 大 一 个 geohash 可 以 完全 包含 查询 多 边 形 。 
你 需要 有 办 法 来 计算 出 一 个 geohash， 并 看 看 是 否 可 以 完全 包含 用 户 的 
查询 多 边 形 。JTS 里 的 Geometry 类 有 一 个 contains(0) 方 法 正 是 做 这 个 
的 。 如 果 不 是 必须 ， 你 也 不 愿意 降低 精度 水 平 。 如 果 当 前 精度 的 
geohash 不 能 包含 查询 多 边 形 ， 你 应 该 试 试 这 个 geohash 加 上 它 的 所 有 直 
接 邻 大 。 因 此 ， 你 需要 一 种 办 法 来 把 一 个 GeoHash 或 一 组 GeoHashes 转 
换 成 一 个 Geometry。 这 带 来 了 第 二 个 几何 学 技巧 : 凸 包 (convex 
hull) 。 

某 多 边 形 凸 包 的 正式 定义 是 : 所 有 包含 该 多 边 形 的 几何 形状 集合 的 
交集 。 维 基 百 科 网 页 上 6 有 一 个 简单 的 描述 ， 这 足以 满足 你 的 需要 。 网 
页 上 面 说 你 可 以 把 一 组 几何 形状 的 凸 包 想 象 成 用 一 个 橡皮 圈 把 这 些 几 何 
形状 紧 紧 圈 起 来 时 的 形状 。 这 些 几 何 学 概念 在 图 片上 很 容易 解释 ， 一 
随机 无 规则 点 的 凸 包 如 图 8-13 上 所 示 。 





图 8-13 凸 包 是 紧 紧 围 住 一 组 几何 形状 的 形状 。 本 例 中 ， 这 组 几何 形 

状 是 一 些 简 单 的 点 。 你 将 用 它们 来 测试 一 个 geohash 的 全 部 邻居 的 罗 善 
情况 

当 你 想 知 道 查 询 多 边 形 是 否 洲 在 全 部 geohash 邻 居 里 时 ， 凸 包 对 于 
这 种 情况 是 很 有 用 的 。 本 例 中 ， 这 意味 着 是 否 有 一 个 或 一 组 geohash,， 
你 可 以 通过 在 所 有 geohash 的 拐角 点 上 取 凸 包 来 创建 一 个 履 盖 测 试 多 边 
形 。 每 个 GeoHash 是 一 个 有 边界 的 方块 〈BoundingBox) ， 而 
BoundingBox 有 4 个 抛 角 。 证 我 们 把 这 些 封 装 到 一 个 方法 里 ; 























Set<Coordinate> getCoords (GeoHash hash) { 
BoundingBox bbox = hash.getBoundingBox () ; 西南 
Set<Coordinate> coords = new HashSet<Coordinate> (4) ; 拐角 西北 
coords .add (new Coordinate (bbox.getMinLon(), bbox.getMinLat())) 拐角 
coords.add (new Coordinate (bbox.getMinLon(), bbox.getMaxLat () ) ) ; | 
coords.add (new Coordinate (bbox.getMaxLon(), bbox.getMaxLat ())); 4 
coords.add (new Coordinate (bbox.getMaxLon(), bbox.getMinLat())) + 东南 
return coords; 东北 拐角 

} 拐角 


在 geohash 邻居 的 完整 集合 的 情况 下 ， 你 需要 循环 处 理 每 一 个 
geohash， 在 每 一 个 geohash 上 调用 getCoords()， 收 集 它们 的 拐角 坐标 。 
使 用 Coordinate， 你 可 以 创建 一 个 简单 的 Geometry 实 例 ，MultiPoint 扩 展 
了 父 类 Geometry，MultiPoint 代 表 一 组 点 。 因 为 Multipoint 没有 额外 的 几 
何 形状 限制 ， 所 以 你 将 使 用 Multipoint， 而 不 是 像 Polygon 这 样 的 东西 。 
创建 MultiPoint 实 例 ， 然 后 获取 它 的 convexHull()。 你 可 以 把 所 有 这 些 放 
进 另 一 个 辅助 方法 : 


Geometry convexHull (GeoHash [] hashes) { 
Set<Coordinate> coords = new HashSet<Coordinate>(); 


for (GeoHash hash : hashes) { | 收集 所 有 hash 的 所 有 拐角 
coords.addAll (getCoords (hash) ) ; 


} 


GeometryFactory factory = new GeometryFactory(); 
Geometry geom 
= factory.createMultiPoint (coords.toArray (new Coordinate[0])); 


return geom.convexHull () ; <— ， 到 
} 获取 Geometry 的 凸 包 基于 扒 角 坐标 创建 简单 的 
Geometry 实例 


现在 一 切 就 绪 ， 你 可 以 基于 碍 询 多 边 形 来 计算 最 小 包围 的 geohash 





前 绥 集 合 。 到 目前 为 止 ， 你 已 经 使 用 过 7 个 字符 的 geohash 精 度 ， 在 这 个 
数据 集 上 取得 了 合理 的 成 功 ， 所 以 这 次 也 从 这 里 开始 。 对 于 这 个 算法 ， 
先 基于 查询 多 边 形 的 形 心 计算 出 7 个 字符 的 geohash， 然 后 检查 这 个 
geohash 的 窗 盖 情况 。 如 果 不 够 大 ， 基 于 这 个 geohash 和 8 个 邻居 的 完整 集 
合 执 行 同样 的 计算 。 如 果 这 组 前 级 还 是 不 够 大 ， 把 精度 降低 到 6 个 字 
符 ， 并 且 再 次 尝试 整个 过 程 。 

代码 比 言语 更 有 说 服 力 。 这 个 minimumBoundingPrefixes() 方 法 如 
下 : 


GeoHash[] minimumBoundingPrefixes (Geometry query) { 


GeoHash candidate; | Ms 
Geometry candidateGeom; 
Point queryCenter = query.getCentroid(); 
for (int precision = 7; precision > 0; precision--) { 
candidate 和 7 个 字符 精 
= GeoHash.withCharacterPrecision(queryCenter.getY(), 度 的 geohash 
queryCenter .getX() ， 开始 
precision); 


candidateGeom = convexHull (new GeoHash[]{ candidate }); 


if (candidateGeom.contains (query)) { 检查 hash 勾 
return new GeoHash[]{ candidate }; ee > ] 如 果 失 败 
candidateGeom = convexHull (candidate.getAdjacent ()); geohash 的 
if (candidateGeom.contains (query)) { 覆盖 情况 
GeoHash[] ret = Arrays.copyOf (candidate.getAdjacent () ，9) ; | | 
ret[8] = candidate; 
i 
return ret; 不 要 忘 了 加 上 
} 中 心 hash 
} i 
es sl 条 低 糙 诺 乡 
throw new IllegalArgumentException\( Pe 降低 精度 
口 VAv lL, 、 
"Geometry cannot be contained by GeoHashs'" ) ; 别 ， 再 次 尝试 


当然 ， 图 片 比 代码 更 有 说 服 力 。 分 别 在 6 个 字符 和 7 个 字符 精度 水 平 
把 伍 询 多 边 形 和 geohash 合 放 在 一 起 的 尝试 如 图 8-14 所 示 。7 个 字符 是 不 
够 履 兰 查询 多 边 形 的 ， 所 以 这 个 精度 水 平 必须 降低 。 





1。 of PowedbyLeaet!— Map tesbySaren Deson under CC BY30 Data by CanStestap under CC BY SA 
图 8-14 在 6 个 字符 和 7 个 字符 精度 时 的 履 盖 测试 。 在 7 个 字符 时 ， 中 
心 geohash 和 全 部 邻 后 加 起 来 还 是 不 能 履 盖 整个 查询 区 域 ， 降 低 到 6 个 字 
符 就 可 以 完成 任务 
图 8-14 也 凸显 了 当前 方式 的 缺点 。 在 6 个 字符 精度 时 ， 你 的 确 覆 盖 
了 整个 查询 区 域 ， 但 是 整个 西边 的 方 框 没 有 贡献 任何 落 在 查询 里 的 数 
据 。 你 可 以 在 选择 前 级 方 框 时 更 智能 一 些 ， 但 是 这 涉及 很 复杂 的 计算 逻 














在 建立 服务 器 端 过 滤器 之 前 ， 让 我 们 先 在 客户 端 完成 查询 逻辑 建立 


和 测试 工作 。 即 使 在 客户 端 本 地 运行 成 功 ， 部 署 、 测 试 和 重新 部 署 任何 
服务 器 端 组 件 也 是 很 烦人 的 ， 所 以 让 我 们 先 在 客户 端 建立 和 测试 核心 钦 
辑 。 不 但 如 此 ， 而 且 你 创建 的 逻辑 将 来 还 可 以 被 其 他 得 询 重 复 使 用 。 
客户 端 逻 辑 的 主体 基本 上 和 KNNQuery (K 个 最 近邻 居 查 询 ) 相 
同 。 这 两 个 例子 中 ， 你 需要 先 创建 一 个 竺 扫描 的 geohash 前 级 列表 ， 然 
后 执行 这 些 扫描 ， 并 且 收 集 返 回 结果 。 因 为 大 部 分 内 容 相同 ， 我 们 将 跳 
过 扫描 器 代码 。 你 感 兴趣 的 是 检查 一 个 返回 点 是 否 落 在 查询 多 边 形 里 。 
为 此 ， 你 需要 为 每 个 QueryMatch 实例 创建 一 个 Geometry 实 例 。 基 于 
Geometry 实 例 ， 使 用 和 前 面相 同 的 containsO 调 用 就 可 以 成 功 判 断 : 
GeoHash[] prefixes = minimumBoundingPrefixes (query); 
Set<QueryMatch> ret = new HashSet<QueryMatch> () ; | 得 到 竺 扫描 的 前 绥 


HTableInterface table = pool.getTable ("wifi"),; 
for (GeoHash prefix : prefixes) { 


人 二 
行 扫 撕 ,创建 实 俩 
} 执行 扫描 ,创建 oueryMatcn 实例 闹 历 所 有 
table.close(); pe 
for (Iterator<QueryMatch> iter = ret.iterator(); iter.hasNext();) { 候选 对 象 


QueryMatch candidate = iter.next(); a! 
Coordinate coord = new Coordinate(candidate.lon, candidate.1lat),; 
Geometry point = factory.createPoint (Coord) ; 


if (!query.contains (point)) < 一 测试 是 否 落 为 每 个 候选 对 象 创 
itez .zemove () ; 了 一 移 除 不 在 查 “| 在 查询 区 域 建 Geometry 实例 
} 询 区 域 的 


QueryMatch 结 果 包 含 经 度 和 纬度 值 ， 你 可 以 把 这 些 值 转换 成 一 个 
Coordinate 实 例 。 使 用 与 前 面相 同 的 GeometryFactory 类 ， 把 这 个 
Coordinate 转 换 成 一 个 Point， Point 是 Geometry 的 子 类 。containsO 只 是 对 
Geometry 类 可 用 的 多 个 空间 判断 方法 .HI 之 一 。 这 是 件 好 事情 ， 因 为 这 
意味 着 你 在 人 查询 里 为 此 创建 的 框架 可 以 被 许多 其 他 空间 判断 操作 重复 使 
用 。 

让 我 们 把 代码 打 成 包 ， 测 试 一 下 这 个 得 询 。main() 方 法 里 仍然 没有 
什么 有 趣 的 东西 ， 只 是 解析 参数 和 提交 碍 询 ， 所 以 跳 过 它 的 代码 。 数 据 
已 经 加 载 过 了 ， 上 所 以 你 可 以 直接 运行 代码 。 重 新 编译 应 用 ， 然 后 在 时 代 
广场 周边 的 目标 数据 上 执行 一 次 查询: 








$ mvn clean package 


op 
[INFO] BUILD SUCCESS 
[INFO] ==-=-mi 
$ java -cp target/hbaseia-gis-1.0.0.jar \ 
HBaseIA.GIS.WithinQuery local \ 
"POLYGON ((-73.980844 40.758703, \\ 
-73.987214 40.761369, \ 
-73.990839 40.756400,，\\ 
-73.984422 40.753642, \\ 
-73.980844 40.758703))" 
Geometry predicate filtered 155 points. 
Query matched 26 points. 


<QueryMatch: 644, dr5ru7tt72wm, -73.9852, 40.7574, NaN > 
<QueryMatch: 634, dr5rukjkhsd0, -73.9855, 40.7600, NaN > 
<QueryMatch: 847, drS5ru7gq2tn3k, -73.9841, 40.7553, NaN > 
<QUueryMatch: 1294, dr5ru7hpn094, -73.9872, 40.7550, NaN > 
<QUueryMatch: 569, dr5ru7rxeqn2, -73.9825, 40.7565, NaN > 
<QueryMatch: 732, drS5ru7fvm5jh, -73.9889, 40.7588, NaN > 
<QueryMatch: 580, dr5rukn9brrk, -73.9840, 40.7596, NaN > 
<QueryMatch: 445, dr5ru7zsemkp, -73.9825, 40.7587, NaN > 
<QueryMatch: 517, dr5ru7yhj0n3, -73.9845, 40.7586, NaN > 
<QUueryMatch: 372, dr5ru7m0Obm8m, -73.9860, 40.7553, NaN > 
<QUueryMatch: 516, dr5rue8nkly4, -73.9818, 40.7576, NaN > 
<QuUueryMatch: 514, dr5ru77myu3f, -73.9882, 40.7562, NaN > 
<QueryMatch: 566, dr5rukk42vj7, -73.9874, 40.7611, NaN > 
<QueryMatch: 656, dr5ru7eShcp5, -73.9886, 40.7571, NaN > 
<QueryMatch: 640, drS5rukhnyc3x, -73.9871, 40.7604, NaN > 
<QuUueryMatch: 653, drSru7Tepfg1i7, -73.9887, 40.7579, NaN > 
<QueryMatch: 570, drsru7fvdecd, -73.9890, 40.7589, NaN > 
<QueryMatch: 1313, dr5Sru7k6éh9ub, -73.9869, 40.7555, NaN > 
<QueryMatch: 403, dr5ru7hv4vyw, -73.9863, 40.7547, NaN > 
<QueryMatch: 750, drSru7ss0bul, -73.9867, 40.7572, NaN > 
<QueryMatch: 515, dr5ru7g0bgy5, -73.9888, 40.7581, NaN > 
<QUueryMatch: 669, dr5ru7hzsnzl, -73.9862, 40.7551, NaN > 
<QueryMatch: 631, dr5ru7t33776, -73.9857, 40.7568, NaN > 
<QueryMatch: 637, drS5ru7xxuCccw, -73.9824, 40.7579, NaN > 
<QueryMatch: 1337, dr5ru7dsdf6g, -73.9894, 40.7573, NaN > 
<QueryMatch: 565, dr5rukp0fp9v, -73.9832, 40.7594, NaN > 


你 得 到 了 26 个 结果 。 这 和 我 们 之 前 的 猜测 非常 接近 。 为 了 体会 后 
面 的 工作 ， 请 注意 有 多 少 点 被 contains0 判 断 排 除 。 如 果 把 过 滤器 逻辑 推 
往 集群 ， 你 可 以 把 网 络 上 传输 的 数据 量 减少 大 约 500%! 但 是 ， 首 先 让 
我 们 再 次 确认 结果 是 否 正确 。 输 出 的 QueryMatch 行 很 有 意思 ， 但 是 如 果 
看 到 这 些 结果 ， 你 很 容易 注意 到 有 一 个 Bug〈 应 该 是 25 个 结果 ) 。 这 个 
查询 的 结果 如 图 8-15 所 示 。 

这 看 起 来 相当 好 。 你 可 能 还 想 把 查询 的 边界 扩大 一 点 儿 ， 那 样 ， 这 
个 查询 会 获取 几 个 紧 挨 边界 线 外 面 的 位 置 。 现 在 你 知道 了 这 个 逻辑 的 工 
作 原 理 ， 让 我 们 把 这 些 计 算 任务 转移 到 那些 空间 的 RegionServer 上 。 
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图 8-15 区 域内 查询 结果 。 包 含 过 滤器 看 起 来 可 以 按 预 期 正常 工作 。 


有 A ww 
™ 
NS 
RS 


也 可 以 看 到 几何 形状 库 和 地 图 库 是 一 致 的 





现在 有 了 一 个 可 以 作为 基础 的 实现 ， 让 我 们 把 判断 逻辑 放 进 过 滤 
器 。 那 样 你 就 可 以 把 多 余 的 数据 留 在 集群 那 边 。 你 在 客户 端 版 本 上 验证 
了 这 个 实现 ， 一 切 都 准备 好 了 。 应 该 看 到 唯一 的 不 同 是 ， 使 用 了 过 滤器 
的 版 本 会 大 大 减少 网 络 压 力 ， 因 此 理论 上 会 运行 得 更 快 。 除 非 你 是 在 一 
台 HBase 单 机 模式 的 数据 集 上 运行 。 

WithinFilter (区 域内 过 滤器 ) 与 你 在 第 4 章 看 到 的 PasswordStrength 
Filter 类 似 。 就 像 PasswordStrengthFilter 一 样 ， 该 过 滤器 基于 行 里 的 单元 
存储 的 数据 进行 过 滤 ， 所 以 你 需要 维护 某 个 状态 。 本 例 中 ， 为 了 同时 访 
问 X 和 Y 华 标 ， 你 需要 履 盖 void filterRow(List<KeyValue>) 方 法 。 你 将 把 
客户 病 实 现 的 逻辑 转移 到 这 里 。 在 你 要 过 小 挥 一 行 的 时 候 ， 这 个 方法 会 
更 新 状态 变量 。 去 掉 一 些 错误 检查 代码 ， fterRow(0) 方 法 如 下 : 


public void filterRow(List<KeyValue> kvs) { 


double lon = Double.NaN; 
double lat = Double.NaN; 





for (KeyValue kv : kvs) { | 找到 X 坐标 
if (Bytes.equals(kv.getQualifier(), X COL)) < 一 
lon = Double.parseDouble (new String(kv.getQualifier())); 
if (Bytes.equals (kv.getQualifier(), Y COL)) 4 
lat = Double.parseDouble (new String (kv.getQualifier ())); | 技 到 站 坐标 


} 


Coordinate coord = new Coordinate(lon, lat); 
Geometry point = factory.createPoint (CoordQ) ; 


if (!query.contains (point)) < 
this.exclude = true; | 测试 是 否 包含 


遍历 每 行 每 个 列 族 的 每 个 KeyValue 的 方法 可 能 很 慢 。 如 果 可 以 ， 
HBase 会 优化 对 filterRow() 的 调用 ， 你 必须 在 FilterBase 的 扩展 里 显 式 启 
用 它 。 通 过 再 一 次 履 盖 告诉 过 滤器 ， 让 HBase 调 用 该 方法 : 
public boolean hasFilterRow() { return true; |】 
当 你 因为 某 行 没 有 落 在 查询 边界 里 想 排 除 它 时 ， 你 需要 设置 exclude 


创建 Point 








标志 。 该 标志 在 boolean filterRow() 里 作为 排除 条 件 使 用 : 
public boolean filterRow() | 
return this.exclude,; 


你 将 基于 main(0) 函 数 的 参数 解析 来 的 query “(Geometry 的 实例 ) 构造 
过 小 器。 在 客户 端 构造 过 滤器 如 下 : 

Filter withinFilter = new WithinFilter (query)., 

除了 把 排除 逻辑 转移 到 Filter 实 现 的 外 面 之 外 ， 新 方法 看 起 来 没有 很 
大 不 同 。 在 你 自己 的 过 滤器 里 ， 不 要 起 了 包括 一 个 不 带 参 数 的 默认 构造 
函数 。 这 对 于 序列 化 API 是 必需 的 。 现 在 可 以 安装 过 滤器 并 让 它 运 行 。 

一 条 很 少 人 走 的 路 

写 这 部 分 的 时 候 ， 还 没有 太 多 定制 过 滤器 实现 的 例子 。 我 们 有 一 个 
HBase 随机 附带 的 过 滤器 列表 (一 个 令 人 印象 深刻 的 列表 )〉 ， 但 是 再 多 
就 没有 了 。 因 此 ， 如 果 你 选择 实现 自己 的 过 滤器 ， 你 可 能 会 独自 抓 耳 挠 
胭 。 但 是 不 要 怕 ! HBase 是 开放 的 ， 你 有 源 代码 ! 

如 果 你 认为 HBase 没有 正确 处 理 接口 和 调用 环境 之 间 的 约定 ， 你 总 
是 能 追溯 到 源 代 码 。 处 理 这 种 事情 的 一 个 方便 的 技巧 承 是 创建 和 记录 腊 
常 。 不 需要 抛 异 稼 ， 只 是 创建 和 记录 它 。LOG.info("", new 
Exception()); 这 样 应 该 就 可 以 。 栈 跟踪 会 在 应 用 日 志 里 看 到 细节 ， 你 会 
精确 知道 从 什么 地 方 翻 查 上 游 代码 。 到 处 设置 异常 可 以 很 好 地 采样 信 
上 息 ， 什 么 在 (或 不 在 ) 调用 你 的 定制 过 滤器 。 

如 果 你 正在 调试 一 个 行为 异常 的 过 滤器 ， 每 次 过 历 数据 你 将 必须 停 
止 和 启动 HBase， 以 便 让 HBase 知 道 JAR 包 的 改变 。 这 正 是 本 例 中 你 要 先 
在 客户 端 测 试 逻 辑 的 原因 。 

为 了 让 RegionServer 能 够 实例 化 过 滤器 ， 过 滤器 必须 安装 在 HBase 集 
群 上 。 让 我 们 增加 JAR 包 到 类 路 径 里 ， 然 后 重启 进程 。 如 果 你 的 JAR 包 
像 这 个 例子 一 样 包括 依赖 项 ， 也 要 确保 登记 这 些 依赖 项 的 类 。 你 可 以 把 











那些 JAR 包 添加 到 类 路 径 里 ， 或 者 创建 一 个 大 JAR 包 〈uber-JAR) ， 把 
所 有 JAR 包 的 类 放 进 自己 创建 的 大 JAR 包 里 。 为 简单 起 见 ， 这 里 就 是 这 
么 做 的 。 实 战 中 ， 我 们 推荐 你 保持 JAR 包 的 简洁 ， 只 是 需要 时 才 附 带 这 
些 依赖 项 。 这 会 简化 版 本 冲突 的 调试 ， 以 后 这 全 部 会 不 可 避免 地 出 现 。 
将 来 你 会 感谢 上 自己 的 。 同 样 的 处 理 也 适用 于 定制 的 协 处 理 器 
(Coprocessor) 的 部 署 。 

要 精确 找 出 你 的 过 滤器 (Filter) 或 协 处 理 器 (Coprocessor) 依赖 哪 
些 外 部 JAR 包 ， 以 及 那些 JAR 包 又 依赖 了 哪些 JAR 包 ，Maven 可 以 帮 你 。 
它 可 以 精确 确定 这 些 东 西 。 本 例 中 ，Maven 显 示 只 有 两 个 依赖 项 没有 被 
Hadoop 和 HBase 提 供 。 


$ mv dependency:tree 


[INFO] --- maven-dependency-plugin:2.1:tree (default-cli) @ hbaseia-gis --- 
[INFO] HBaseIA:hbaseia-gis:jar:1.0.0-SNAPSHOT 
[INFO] +- org.apache.hadoop:hadoop-core:jar:1.0.3:compile 


[INFO] | +- commons-cli:commons-cli:jar:1.2:compile 


[INFO] +- org.apache.hbase:hbase:jar:0.92.1:compile 
[INFO] | +- com.google.guava:guava:jar:r09:compile 


[INFO] +- org.clojars.ndimiduk:geohash-java:jar:1.0.6:compile 
[INFO] \- com.vividsolutions:jts:jar:1.12:compile 


[INFO] BUILD SUCCESS 
[TNFOT] = 


你 很 笠 运 : 这 些 依赖 项 没有 带 来 它们 自己 需要 的 依赖 项 一 一 至 少 ， 
JAR 包 都 提供 了 。 如 果 有 需要 的 依赖 项 ， 它 们 会 显示 在 树 形 图 里 。 

你 可 以 通过 编辑 $8HBASE_HOME/conf 目 录 里 的 hbase-env.sh 文 件 来 
安装 JAR 包 和 任何 依赖 项 。 把 export HBASE_CLASSPATH 开头 的 行 去 
掉 注 释 ， 添 加 你 的 JAR。 你 可 以 添加 多 个 JAR， 用 冒号 〈(:) 分 开 。 如 下 
所 示 : 


# Extra Java CLASSPATH elements. Optional. 
export HBASE CLASSPATH=/path/to/hbaseia-gis-1.0.0.jar 
现在 你 可 以 重新 编译 应 用 ， 重 新 启动 应 用 ， 并 且 测 试 应 用 。 注 意 ， 











把 查询 工具 启动 命令 的 第 一 个 参数 从 local 改 为 remote: 


$ mvn clean package 


[INFO] 


[INFO] BUILD SUCCESS 


[INFO] 


$ $HBASE HOME/bin/stop-hbase.sh 
stopping hbase.... 


$ $HBASE HOME/bin/start-hbase.sh 
starting master, 


logging to ... 


$ java -cp target/hbaseia-gis-1.0.0.jar \ 
HBaseIA.GIS.WithinQuery remote \ 


"POLYGON ((-73. 


Query matched 26 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 
<QueryMatch: 


9852， 
9869, 
9863， 
9832， 


.9818, 


980844 40.758703, \\ 
-73.987214 40.761369, \\ 
-73.990839 40.756400,，, \\ 
-73.984422 40.753642, \ 
-73.980844 40.758703))" 

points. 

644, dr5ru7tt72wm, -73. 
1313, dr5ru7k6h9ub, -73. 
403, drS5ru7hv4vyw, -73. 
565, AdArSrukpO0fp9v, -73. 
516, dr5rue8nkly4, -73 
669, drS5ru7hzsnzl, -73. 
445, dr5ru7zsemkp, -73. 
580, drSrukn9brrk, -73. 
732) ‘dr5ru7TfvmSjh, -73: 
637, GrSruUu7TxxUCECW, -73. 
566, dr5rukk42vj7, -73. 
569, dr5ru7rxeqn2, -73. 
515, dr5ru7g0bgy5, -73. 
634, drsrukjkhsd0, -73. 
640, drS5rukhnyc3x, -73. 
372, dr5ru7m0bm8m, -73. 
517, drS5ru7yhjO0n3, -73. 
656, dr5ru7TeShcp5, -73. 
1294, dr5ru7hpn094, -73. 
653, drSru7epfg17, -73. 
570, dr5ru7fvdecd, -73. 
847, dr5ru7q2tn3k, -73. 
1337, dr5ru7dsdf6g, -73. 
750, dr5ru7ss0bul, -73. 
631, dr5ru7t33776, -73 


9862, 
9825, 
9840, 
9889, 
9824， 
9874, 
9825, 
9888, 
9855, 


9871, 
9860, 
9845, 
9886, 
9872, 
9887， 
9890， 
9841， 
9894， 
9867, 
9857, 


40. 
40. 


.7574, 
15355; 
S49, 
.7594, 
“17576, 
»。7551, 
“7587， 
-1596., 
$7588;, 
.7579., 
“7164 
5655 


1581,; 
.7600, 


.7604, 
.7553， 
.7586, 
“197 
.17550, 
7579., 
.7589, 
-75535 
“S73 


T3572 
7568, 


NaN 
NaN 
NaN 
NaN 
NaN 


NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 


使 用 远程 的 而 不 是 本 地 的 


和 


返回 了 同样 数量 的 点 。 如 果 执 行 一 个 快速 的 cat、cut、sort、diff 命 
令 ， 可 以 证 实 输出 结果 是 相同 的 。 在 图 8-16 上 通过 肉眼 检查 确认 了 这 一 


最 后 的 测试 将 会 是 加 载 很 多 数据 到 分 布 式 集群 ， 测 定 两 种 实现 使 用 


的 时 间 。 执 行 一 个 巨大 区 域 的 碍 询 会 显示 出 显 闭 的 性 能 提升 。 但 是 ， 请 

小 心 。 如 果 你 的 查询 区 域 确实 够 大 ， 或 者 你 构建 了 一 个 复杂 的 分 层 过 渡 

器 ， 你 可 能 会 遇 到 RPC 运 行 超时 之 类 的 事情 。 请 参考 我 们 前 面 关 于 扫描 

器 缓存 设置 的 建议 〈8.3 节 ) ， 可 以 帮助 你 减少 这 种 问题 。 
Te b、- 泌 ™ 1 
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图 8-16 带 过 滤器 的 扫描 结果 。 这 个 结果 看 起 来 应 该 和 图 8-15 的 结果 
相同 


8.5 小 结 


本 章 关 于 GIS 与 关于 HBase 讨 论 得 一 样 多 。 请 记 住 ，HBase 只 是 一 个 


工具 。 为 了 有 效 地 使 用 它 ， 你 需要 了 解 这 个 工具 并 且 了 解 使 用 它 的 领 
域 。geohash 技 巧 印 证 了 这 一 点 。 和 擎 握 一 些 领域 知识 会 大 有 帮助 。 本 章 
展示 了 如 何 结合 领域 知识 和 对 HBase 的 理解 创造 一 种 工具 来 高 效 地 并 行 
处 理 成 堆 的 GIS 数 据 。 本 章 也 展示 了 如 何 把 应 用 逻辑 计算 转移 到 服务 器 
端 ， 提 供 了 关于 这 样 处 理 的 时 机 和 理由 的 建议 。 

值得 注意 的 是 ， 这 些 碍 询 仅 仅 只 是 开始 。 同 样 的 技术 可 应 用 于 实现 
许多 其 他 空间 判断 。 这 不 是 打算 蔡 换 PostGIS He ， 但 它 是 一 个 开始 。 它 
也 是 探索 如 何在 HBase 上 实现 多 维度 查询 的 开端 。 作 为 一 个 有 趣 的 跟 
进 ， 有 一 篇 论文 在 2011 年 9 发表 ， 研 究 把 像 四 又 树 和 k-d 树 这 样 的 传统 
数据 结构 以 辅助 索引 的 形式 移植 到 HBase 上 的 方法 。 

本 章 结 束 了 本 书 关 于 在 HBase 上 构建 应 用 系统 的 部 分 。 但 是 ， 不 要 
认为 本 书 结束 了 。 一 旦 你 编写 了 代码 并 发 布 了 JAR 包 ， 乐 趣 才 刚刚 开 
始 。 从 现在 起 ， 你 将 了 解 如 何 规划 一 个 HBase 部 普 以 及 如 何在 生产 环境 
中 运行 HBase。 无 论 你 在 项 目 计划 里 扮演 的 角色 是 项 目 经 理 还 是 网 络 管 
理 员 ， 我 们 都 希望 你 能 找到 你 所 需要 的 。 应 用 开发 人 员 也 会 找到 有 用 的 
资料 。 应 用 系统 的 性 能 相当 大 程度 上 取决 于 如 何 配置 客户 端 以 匹配 你 的 
集群 配置 。 当 然 ， 你 对 集群 的 工作 原理 了 解 得 越 多 ， 就 越 有 能 力 解决 应 























用 系统 的 生产 环境 问题 。 
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这 一 部 分 的 两 章 则 在 帮助 你 把 HBase 应 用 系统 从 开发 原型 升格 为 成 
熟 的 生产 系统 。 

第 9 章 将 指导 你 如 何 为 HBase 集 群 提供 和 准备 硬件 。 你 可 以 参照 那些 
建议 为 应 用 系统 有 和 针对 性 地 部 著 和 配置 HBase。 

第 10 章 讲述 如 何在 生产 环境 中 成 功 地 建立 HBase 集 群 。 从 来 之 不 易 
的 性 能 配置 策略 到 健康 状态 监控 以 及 数据 备份 技术 ， 第 10 章 将 教 你 处 理 
在 HBase 生 产 集 群 中 出 现 的 困难 场景 。 





第 9 章 部 署 HBase 


本 章 涵 盖 的 内 容 

加 为 HBase 部 署 选择 硬件 

加 安装、 配置 和 启动 HBase 

四 在 云端 部 署 HBase 

晶 尝 握 重要 的 配置 参数 

到 现在 为 止 ， 你 已 经 学 习 了 很 多 关于 HBase 系 统 的 知识 ， 以 及 如 何 
使 用 它 。 当 你 阅读 本 章 时 ， 我 们 希望 你 已 经 安装 了 HBase 的 单机 模式 ， 
并 且 摆 弄 过 客户 端 代码 。 一 个 节点 的 HBase 单 机 模式 只 能 进行 基本 操 
作 ， 通 常 在 学 习 如 何 使 用 系统 或 者 开发 应 用 时 会 采用 这 种 模式 。 单 机 模 
式 不 能 处 理 真 实 的 工作 负载 或 者 数据 规模 。 

当 计 划 安 装 一 个 完全 分 布 式 HBase 时 ， 你 必须 考虑 下 面 所 有 各 个 组 
件 : HBase Master、ZooKeeper、RegionServer 和 HDFS DataNode。 有 时 
这 个 列表 还 要 包括 MapReduce 框 架 。 每 个 组 件 对 硬件 资源 都 有 不 同 的 需 
求 。 本 章 将 详细 介绍 所 有 组 件 的 硬件 需求 ， 以 及 怎样 为 完全 分 布 式 
HBase 安装 选择 人 硬件 ;然后 将 讨论 可 选 的 不 同 HBase 发 行 版 ， 以 及 在 选 
择 一 种 发 行 版 而 不 是 男 一 种 时 应 该 考虑 的 因素 。 我 们 还 将 讨论 部 畦 策 
略 ， 以 及 在 规划 部 署 系统 的 架构 时 应 该 考虑 什么 内 容 。 

还 记得 云 计 算 吗 ? 在 前 面 的 章节 中 我 们 避 而 不 谈 ， 但 是 现在 我 们 会 
讨论 它 。 在 你 安装 好 一 切 并 部 晋 好 HBase 的 组 件 以 后 ， 你 还 需要 配置 系 
统 。 我 们 将 讨论 重要 的 配置 参数 以 及 每 个 参数 的 含义 。 

注意 : 如 果 你 打算 构建 一 个 生产 系统 ， 你 很 可 能 要 和 系统 管理 员 合 
作 ， 并 且 在 部 署 的 过 程 中 让 他 们 参与 进来 。 











9.1 规划 集群 


规划 一 个 HBase 集 群 包括 规划 底层 的 Hadoop 集 群 。 本 节 我 们 将 强调 
选择 便 件 时 要 齐 记 的 考虑 因素 ， 以 及 在 集群 中 怎样 部 署 各 个 角色 
(HBaseMaster、RegionServer、ZooKeeper 等 ) 。 其 中 ， 选 择 正 确 的 便 
件 是 部 署 的 关键 。 除 了 为 构建 使 用 HBase 的 应 用 系统 而 雇用 工程 师 之 
外 ， 硬 件 可 能 是 你 在 部 署 Hadoop 和 HBase 时 最 大 的 一 笔 投 资 。Hadoop 和 
HBase 可 以 在 商用 硬件 上 运行 。 但 是 商用 并 不 意味 着 低档 的 配置 。 这 里 
商用 的 含义 是 指 可 以 很 容易 从 多 家 三 商 那 里 得 到 不 算 特 殊 的 零件 。 换 名 
话说 ， 你 不 需要 为 了 成 功 部 署 而 去 购买 项 级 的 企业 级 服务 器 。 

为 任何 应 用 选择 硬件 的 时 候 ， 你 都 必须 做 一 些 选 择 ， 诸 如 CPU 数 
量 、 内 存 大 小 、 硬 盘 数 量 和 大 小 等 。 对 HBase 部 署 来 说 ， 为 了 得 到 最 好 
的 性 能 和 投入 最 低 的 成 本 ， 对 所 有 这 些 资源 选择 正确 的 比例 是 很 重要 
的 。 如 果 一 个 集群 有 许多 CPU， 却 没有 足够 的 内 存 用 于 保存 缓存 或 者 
MemStore， 这 是 不 合适 的 。 这 种 情况 下 稍微 减少 CPU 的 数量 并 且 增 加 内 
存 可 能 是 一 个 更 好 的 选择 ， 而 成 本 是 一 样 的 。 

正如 你 到 现在 为 止 所 了 解 的 ， 在 HBase 部 署 里 有 许多 种 和 角色。 每 种 
角色 都 有 特殊 的 便 件 需求 ， 其 中 有 一 些 角色 的 使 用 范围 比 其 他 的 更 为 广 
和 o 

便 件 的 选择 以 及 人 硬件 部 区 的 位 置 由 集群 的 规模 决定 。 在 25 个 节点 以 
内 的 集群 里 ， 在 一 个 节点 上 运行 Hadoop JobTracker 和 NameNode 是 很 
常见 的 。 你 也 可 以 把 Secondary NameNode 放 在 那个 节点 上 ， 但 一 般 推 
莽 把 它 分 开 部 署 。 大 于 25 个 市 点 的 集群 通 香 有 专用 的 人 硬件 来 分 别 部 署 
Hadoop NameNode、JobTracker 和 Secondary NameNode。 不 要 认为 25 是 
个 魔力 数字 ， 它 只 是 在 规划 集群 的 时 候 在 考虑 方向 上 给 你 一 个 大 体 的 指 
导 原 则 。 

现在 让 我 们 把 HBase 考 虑 进来 。HBase RegionServer 几 乎 总 是 和 



































Hadoop DataNode 并 行 部 署 在 一 起 的 。 当 规划 一 个 集群 的 时 候 ， 我 们 需 
要 考虑 服务 水 平 约定 〈SLA) ， 仔 细 地 规划 变 得 至 关 重 要 。 作 为 一 个 总 
体 原 则 ， 如 果 HBase 被 用 于 低 延 迟 工 作 负 载 场 合 ， 请 不 要 把 HBase 
RegionServer 和 Hadoop TaskTracker 并 行 部 署 在 一 起 。 如 果 你 的 使 用 场景 
不 会 用 到 MapReduce 作 业 ， 根 本 就 不 安装 MapReduce 框 架 是 一 个 更 好 的 
选择 一 一 也 就 是 说 ， 不 要 安装 JobTracker 和 TaskTracker。 如 果 既 有 
MapReduce 作 业 又 有 实时 工作 负载 ， 建 议 分 开 使 用 两 个 单独 的 集群 一 一 
一 个 运行 MapReduce 作 业 ， 男 一 个 运行 HBase。MapReduce 作 业 可 以 从 
远程 的 HBase 集群 读 取 数据 。 当 然 ， 这 样 做 你 确实 失去 了 数据 的 本 地 
性 ， 每 个 作业 都 将 路 网 络 传输 数据 ， 但 这 是 确切 保证 实时 工作 负载 的 
SLA 的 唯一 方法 。 

我 们 通常 不 推荐 同一 个 HBase 集 群 同时 服务 于 MapReduce 和 实时 工 
作 负 载 。 如 果 你 一 定 要 那样 做 ， 请 务必 调 低 任 务 〈task) 数 ， 以 避免 压 
垮 HBase RegionServer。 男 外 建议 使 用 更 多 块 人 硬盘 ， 这 样 可 以 跨 人 硬盘 分 
散 负 载 ， 这 有 助 于 缓解 IO 争 用 问题 。 因 为 Map/Reduce 任 务 也 需要 内 存 
资源 ， 建 议 采 用 更 大 内 存 。 

如 果 主 要 使 用 场景 是 基于 HBase 的 数据 运行 MapReduce 作 业 ， 那 么 
RegionServers 和 TaskTracker 并 行 部 辕 在 一 起 也 是 可 以 接受 的 。 

现在 ， 让 我 们 研究 一 些 常见 的 部 署 情景 以 及 如 何 规划 它们 。 通 常 这 
样 有 助 于 从 打算 部 辕 的 集群 类 型 的 角度 出 发 进行 考虑 。 接 下 来 我 们 将 列 
举 出 一 些 常见 的 集群 类 型 。 

9.1.1 原型 集群 

如 果 你 正在 构建 一 个 简单 的 原型 集群 ， 你 可 以 把 HBase Master 和 
Hadoop NameNode、JobTracker 并 行 部 署 在 同一 个 节点 上 。 如 果 Hadoop 
NameNode 和 JobTracker 已 经 分 开 运 行 在 不 同 节点 上 的 话 ， 你 可 以 让 
HBase Master 和 它们 中 间 任 意 一 个 并 行 部 署 在 一 起 ， 这 样 就 可 以 了 。 





ZooKeeper 也 可 以 安 闭 在 这 些 节 点 上 。 

假如 你 把 Hadoop NameNode、JobTracker、HBase Master、 和 
ZooKeeper 运行 在 同一 个 节点 上 ， 则 需要 一 个 拥有 足够 的 内 存 和 硬盘 的 
广 点 来 文 撑 这 个 人 负载。 一 个 原型 集群 很 可 能 少 于 10 个 节点 ， 这 时 HDFS 
的 容量 是 有 限 的 。 一 台 配 置 了 4 一 6 核 CPU、24 一 32 GB 内 存 和 4 块 SATA 
人 硬盘 的 机 响应 该 承 人 够 用 了 。 此 时 不 需要 有 元 余 电源 、SAS 硬 盘 等 ， 对 于 
原型 集群 ， 也 不 需要 退 求 系统 的 高 可 用 性 ， 所 以 先 省 点 钱 ， 以 便当 你 的 
应 用 系统 火 起 来 的 时 候 可 以 把 这 些 钱 投入 到 生产 集群 上 。 

小 结巴 

上 原型 集群 没有 严格 的 SLA， 所 以 宕 机 也 没关系 。 

四 通常 少 于 10 个 节点 。 

四 在 原型 集群 里 ， 多 个 服务 并 行 部 署 在 一 个 节点 上 是 可 以 接受 的 。 

别 每 个 节点 4 一 6 核 CPU、24 一 32 GB 内 存 、4 块 硬盘 应 该 是 一 个 很 好 
的 初始 配置 。 在 这 里 我 们 假设 你 没有 把 MapReduce 和 HBase 并 行 部 署 在 
一 起 ， 如 果 你 只 把 该 集群 用 于 低 延 迟 访问 ， 那 么 这 是 运行 HBase 的 推荐 
方式 。MapReduce 和 HBase 并 行 部 署 在 一 起 则 需要 更 多 的 CPU、 内 存 和 
人 硬盘 。 








9.1.2 小 型 生产 集群 10 一 20 台 §) 


一 般 来 说 ，HBase 生 产 集 群 不 应 该 少 于 10 个 节点 。 当 然 ，10 也 不 是 
一 个 魔力 数字 。 运 营 一 个 保证 性 能 和 严格 的 SLA 的 小 型 集群 是 很 难 的 
(这 个 说 法 更 多 地 基于 经 验 而 不 是 逻辑 ) 。 

在 小 型 生产 集群 里 ，Hadoop NameNode 和 JobTracker 依然 可 以 并 行 
部 蜀 在 一 起 。 两 个 服务 中 的 每 一 个 都 没有 足够 的 负载 来 要 求 额外 的 硬件 
资源 。 但 是 倘 知 你 需要 一 个 可 靠 的 系统 ， 你 需要 考虑 配置 比 原型 集群 更 
好 的 便 件 。 我 们 在 后 面 会 讨论 每 个 角色 类 型 的 典型 硬件 配置 。 

HBaseMtaster 应 该 运行 在 它 上 自己 的 硬件 上 ， 但 并 不 是 因为 它 承 担 了 











很 多 工作 。 把 它 从 运行 NameNode 和 JobTracker 的 机 器 上 分 离 出 来 是 为 了 
减少 那个 节点 的 负载 。HBaseMaster 节 点 可 以 使 用 比 那 两 个 服务 更 低 等 
级 的 便 件 配置 。 你 可 以 只 部 署 一 台 Master， 但 是 倘 咎 这 是 一 个 生产 系 
统 ，Master 有 元 余 更 好 一 些 。 因 此 ， 你 应 该 有 多 个 HBase Master， 每 个 
部 蜀 在 专用 的 硬件 上 。 

在 小 型 生产 集群 里 一 个 ZooKeeper 实 例 通常 就 足够 了 。ZooKeeper 不 
需要 做 资源 密集 型 的 工作 ， 可 以 把 它 部 署 在 档次 适中 的 硬件 上 。 你 也 可 
以 考虑 把 ZooKeeper 和 HBase Master 部 团 在 同一 台 主 机 上 ， 只 要 给 
ZooKeeper 一 个 专用 的 硬盘 来 写 数据 即 可 。 配 置 多 个 ZooKeeper 市 点 可 以 
提高 可 用 性 ;不 过 对 于 小 型 集群 ， 你 不 可 能 期 望 很 高 的 业务 流量 ， 用 一 
个 ZooKeeper 实例 就 可 以 满足 系统 可 用 性 了 。 即 使 你 配置 了 多 个 
ZooKeeper ， NameNode 的 单 点 故障 依然 是 个 问题 。 

单个 ZooKeeper 和 HBase Master 实例 部 团 在 同一 个 节点 上 的 负面 影 
啊 是 限制 了 集群 的 可 维护 性 。 像 内 核 升 级 、 小 规模 重 局 等 ， 这 些 事情 都 
需要 系统 停机 。 但 是 在 小 型 集群 ， 配 置 超过 一 台 的 Zookeeper 和 HBase 
Master 意 味 着 成 本 上 升 。 你 需要 作出 明智 的 选择 。 

小 结 

加 小 于 10 个 节点 的 集群 很 难 运 转 。 

四 在 部 署 生 产 集群 的 时 候 ， 为 管理 节点 配置 相对 好 一 点 的 硬件 。 双 
电源 供电 和 RAID 是 常见 选择 。 

加 没有 很 多 流量 和 工作 负载 的 小 型 生产 集群 可 以 让 不 同 的 服务 并 行 
部 蜀 在 一 起 。 

四 对 于 小 型 集群 一 个 HBase Master 就 可 以 了 。 

国 对 于 小 型 集群 一 个 ZooKeeper 就 可 以 了 ， 并 且 可 以 和 HBase 
Master 并 行 部 署 在 一 起 。 如 果 运 行 NameNode 和 JobTracker 的 主机 足够 强 
大 ， 也 可 以 把 ZooKeeper 和 HBase Master 部 署 在 那里 。 这 样 可 以 节省 购 
买 额外 机 器 的 费用 。 




















四 单个 HBase Master 和 ZooKeeper 会 限制 集群 的 可 维护 性 。 
9.1.3 中 型 生产 (50 人 台 L :9 


当 服 务 器 扩展 到 比 小 规模 集群 更 大 的 数量 时 ， 情 况 就 变 了 。 此 时 集 
群 有 更 多 的 数据 、 更 多 执行 运算 的 服务 器 和 更 多 需要 管理 的 进程 。 可 以 
分 开 NameNode 和 JobTracker， 把 它们 部 署 在 专用 的 硬件 上 。 可 以 继续 把 
HBase Master 和 ZooKeeper 部 署 在 同一 主机 上 ， 婚 像 小 型 集群 部 署 那样 。 
Master 的 负载 不 会 随 着 集群 的 规模 线性 增长 ;实际 上 ，Master 的 负载 不 
会 增加 多 少 。 

在 小 规模 部 署 中 ， 单 个 ZooKeeper 实 例 就 可 以 满足 需要 。 随 着 部 署 
规模 的 扩展 ， 你 可 能 会 有 更 多 的 客户 端 线程 。 可 以 考虑 把 ZooKeeper 实 
例 的 数量 增加 到 3 个 。 为 什么 不 是 2 个 呢 ? 因为 ZooKeeper 需 要 奇数 个 实 
例 才 能 满足 做 出 诀 策 的 法 定 服务 器 数量 。 

小 结 

晶 在 生产 环境 中 ， 大 概 50 个 市 点 属于 中 型 集群 这 一 类 。 

四 由 于 性 能 的 原因 ， 我 们 建议 不 要 并 行 部 署 HBase 和 MapReduce。 
如 果 你 的 确 需要 并 行 部 署 在 一 起 ， 请 把 NameNode 和 JobTracker 分 开 部 署 
到 不 同 的 机 器 上 。 

四 建议 部 团 3 个 ZooKeeper 和 3 个 HBase Master 节 点 ， 尤 其 是 对 于 一 个 
生产 系统 而 言 。 如 果 你 不 需要 3 个 HBase Master 的 话 ，2 个 也 可 以 ; 但 是 
如 果 你 已 经 有 了 3 个 ZooKeeper 节点 ， 并 且 ZooKeeper 可 以 和 HBase 
Master 共享 节点 ， 增 加 第 三 个 HBase Master 也 没 害处 。 

四 NameNode 和 Secondary NameNode 不 能 使 用 廉价 的 人 硬件。 

















大 型 集群 和 中 型 集群 的 部 署 方式 很 相似 ， 只 是 我 们 建议 把 
ZooKeeper 实 例 增 加 到 5 个 。HBase Master 和 ZooKeeper 仍 并 行 部 署 在 一 


起 。 这 样 HBase Master 也 部 署 5 个 。 请 确保 给 ZooKeeper 配 置 专用 的 硬盘 
来 写 数据 。 

当 你 研究 大 型 集群 部 署 时 ，Hadoop NameNode 和 Secondary 
NameNode 的 硬件 配置 方案 也 会 相应 改变 。 我 们 稍 后 会 讨论 这 一 点 。 

小 结 

加 保持 与 中 型 集群 的 部 署 方式 相同 ， 只 是 需要 5 个 ZooKeeper 实 
例 ， 仍 然 和 HBase Master 并 行 部 署 在 一 起 。 

加 确保 NameNode 和 Secondary NameNode 有 足够 的 内 存 ， 这 取决 于 
集群 的 存储 容量 。 








9.1.5 Hadoop Master 节点 


Hadoop NameNode、Secondary NameNode 和 JobTracker 通常 被 称 为 
Hadoop Master 进 程 。 正 如 你 前 面 看 到 的 ， 根 据 集群 的 规模 大 小 ， 这 些 进 
程 要 么 部 署 在 一 起 ， 要 么 分 开 部 署 到 硬件 配置 相近 的 节点 上 。 所 有 这 些 
进程 都 是 单 进程 ， 并 且 没 有 内 置 任何 故障 转移 /故障 恢复 策略 。 因 此 ， 
你 需要 确保 部 署 的 便 件 尽 可 能 是 高 可 用 的 。 当 然 ， 你 也 不 要 走 极端 ， 去 
买 最 贯 的 硬件 系统 。 只 是 不 要 太 便 宜 就 可 以 了 ! 

对 于 运行 这 些 进程 的 节点 ， 建 议 你 在 硬件 层面 上 为 各 个 组 件 做 些 元 
余 处 理 ， 如 双 电 源 、 质 量 有 保证 的 网 卡 和 RAID 硬 盘 〈 可 能 的 话 ) 。 在 
NameNode 和 SecondaryNameNode 服 务 器 上 使 用 RAID 1 硬盘 来 存储 元 数 
据 是 常见 的 做 法 ， 尽 管 JBOD 内 可 能 更 符合 需要 ， 因 为 NameNode 可 以 
把 元 数据 写 到 多 个 位 置 。 如 果 NameNode 上 保存 元 数据 的 硬盘 坏 了 ， 并 
且 你 没有 在 部 罩 时 考虑 见 余 或 者 备份 ， 你 的 集群 将 丢失 数据 ， 在 生产 环 
境 中 这 是 你 不 希望 经 历 的 事情 。 其 解决 方案 是 ， 要 么 使 用 RAID 1 并 把 数 
据 写 在 这 种 人 硬盘 上 ， 要 么 使 用 多 块 人 硬盘 并 配置 NameNode 把 数据 写 到 多 
块 硬盘 上 。 为 了 把 元 数据 写 到 NameNode 服 务 器 之 外 的 存储 器 ， 使 用 
NFS 挂 载 作 为 NameNode 元 数据 的 备份 目录 也 是 常见 的 。 另 外 ， 这 些 节 











点 的 操作 系统 也 需要 是 高 可 用 的 。 把 存放 操作 系统 的 硬盘 也 配置 为 
RAID1。 

NameNode 服 务 器 在 主 内 存 中 为 所 有 元 数据 提供 服务 ， 因 此 为 了 能 
够 寻 址 整个 命名 空间 马 你 需要 确保 有 足够 的 内 存 。 一 台 配 置 8 核 CPU、 
至 少 16 GB DDR3 RAM、1 Gb 双 以 太 网 卡 和 SATA 硬 盘 的 服务 器 应 该 足 
够 满足 小 规模 集群 的 需要 。 中 型 和 大 型 集群 可 以 扩展 额外 的 RAM， 同 
时 其 他 人 硬件 配置 保持 相同 。 通 常 中 型 集群 需要 增加 16 GB RAM， 大 型 集 
群 在 此 基础 上 再 增加 16 GB 内 存 ， 增 加 的 内 存 用 来 容纳 由 于 更 高 存储 容 
量 带 来 的 更 多 元 数据 。 

Secondary NameNode 应 该 使 用 和 NameNode 相 同 的 硬件 配置 。 
Secondary NameNode 除 了 定时 检查 和 备份 元 数据 的 工作 之 外 ， 通 第 在 
NameNode 服 务 器 宕 机 的 时 候 它 也 是 你 临时 切换 使 用 的 服务 器 。 


9.1.6 HBase Master 


HBase Master 不 承担 很 重 的 负载 ， 并 且 为 了 故障 切换 的 目标 你 可 以 
部 署 多 个 Master。 由 于 这 两 个 因素 ， 为 HBase Master 配置 昂贵 的 、 内 置 
宛 余 的 硬件 有 些 过 头 。 你 不 会 因此 得 到 太 多 好 处 。 

HBase Master 节点 服务 器 的 典型 硬件 配置 是 4 核 CPU、8 一 16 GB 
DDR3 RAM、2 块 SATA 硬盘 (一 块 用 于 操作 系统 ， 男 一 块 用 于 HBase 
Master 日 志 ) 和 1 块 1Gb 以 太 网 卡 。 通 过 使 用 多 台 HBase Master 来 构建 
系统 见 余 ， 这 样 应 该 就 可 以 了 。 

小 结 

加 HBase Master 是 一 个 轻 量 级 进程 ， 不 需要 很 多 资源 ， 但 是 如 果 可 
能 的 话 ， 把 它 部 署 到 单独 的 硬件 上 是 明智 之 举 。 

国 9 以 配置 多 个 HBase Master 进 行 元 余 处 理 。 

四 4 核 CPU、8 一 16 GB RAM 和 2 块 硬盘 对 HBase Master 节 点 来 说 足 
够 了 。 























9.1.7 Hadoop DataNode 和 HBase RegionServer 


Hadoop DataNode 和 HBase RegionServer 在 系统 中 通常 被 称 为 工作 
节点 (slavenode) 。 因 为 在 系统 染 构 中 有 内 建 的 见 余 处 理 ， 它 们 不 像 管 
理 节 点 〈Master node) 那样 需要 昂贵 的 硬件 。 所 有 的 工作 节点 是 相同 
的 ， 它 们 中 的 任 一 节点 都 能 蔡 代 其 他 节点 的 功能 。 工 作 节 点 的 职员 是 存 
储 HDFS 数 据 ， 执 行 MapReduce 计 算 ， 以 及 为 来 自 HBase RegionServer 的 
请 求 提供 服务 。 为 了 能 够 很 好 地 完成 这 些 工 作 ， 它 们 需要 足够 的 
RAM、 硬 盘 和 CPU 核 。 记 住 ， 商 用 并 不 意味 着 低档 配置 ， 而 是 代 之 以 
中 等 质量 的 硬件 。 没 有 一 种 硬件 配置 对 所 有 工作 负载 都 是 最 优 的 ， 有 的 
工作 负载 是 内 存 密集 型 的 ， 而 另外 一 些 工作 负载 是 CPU 密集 型 的 。 例 
如 ， 归 档 存 储 类 型 工作 负载 ， 它 们 便 不 需要 很 多 CPU 资源 。 

HBase RegionServer 是 内 存 贫 焚 型 的 ， 可 以 轻松 消耗 掉 你 给 的 所 有 
RAM。 但 这 并 不 意味 着 你 要 给 RegionServer 进 程 分 配 30 GB 的 堆 空 间 。 
否则 你 会 迅速 进入 stop-the-world 垃圾 收集 器 (garbage collector) ， 然 后 
你 的 系统 马上 册 沉 。 记 住 ，HBase 是 对 延迟 敏感 的 ， 而 stop-the-world 垃 
圾 回收 是 它 的 元 星 。 按 照 经 验 判 断 ， 为 RegionServer 分 配 10 一 15GB 堆 
内 存 时 表现 恨 好 ， 不 过 你 应 该 针对 你 的 工作 负载 进行 测试 以 找 出 最 优 
值 。 如 果 你 正在 运行 的 是 HBase (当然 还 有 HDFS)〉 ， 工 作 节 点 需要 为 
DataNode、RegionServer、 操 作 系 统 和 其 他 进程 〈 监 控 代 理 等 ) 配置 8 一 
12 核 CPU。 再 加 上 24 一 32GB 内 存 和 12 块 1TB 硬 盘 ， 这 样 应 该 就 可 以 
了 。 在 服务 器 上 增加 额外 的 内 存 总 是 没有 坏处 的 ， 可 以 用 做 文件 系统 的 

注意 ， 这 里 并 没有 运行 MapReduce。 如 果 你 选择 在 同样 的 集群 上 负 
运行 MapReduce， 需 要 额外 增加 6 一 8 核 CPU 和 24GB 内 存 的 配置 。 一 般 来 
说 ， 每 个 MapReduce 任 务 需 要 大 约 2~3GB 内 存 和 至 少 1 核 CPU。 让 每 个 
节点 使 用 很 高 的 存储 密度 〈 像 12 块 2 TB 硬盘 ) 会 导致 不 太 合适 的 表 



































现 ， 例 如 在 一 个 节点 发 生 故 障 时 需要 复制 大 量 数据 。 

小 结 

加 DataNode 和 RegionServer 总 是 并 行 部 署 在 一 起 。 它 们 为 吞吐 量 提 
供 服务 。 请 避免 在 相同 的 节点 上 运行 MapReduce。 

四 8 一 12 核 CPU、24 一 32GBRAM、12 块 1TB 硬盘 是 一 个 良好 的 初 
始 化 配置 。 

加 为 了 得 到 更 高 的 存储 密度 ， 你 可 以 增加 硬盘 数量 ， 但 是 不 要 加 得 
太 多 ， 否 则 在 节点 或 硬盘 故障 时 复制 副本 会 很 耗 时 。 

建议 : 选择 大 量 的 配置 合理 的 服务 器 ， 而 不 是 少量 的 性 能 强大 的 服 


局 


务 絮 。 











9.1.8 ZooKeeper 


和 HBase Master 一 样 ，ZooKeeper 也 是 个 相对 轻 量 级 的 进程 。 但 是 
ZooKeeper 比 HBase Master 对 延迟 更 敏感 。 因 此 ， 我 们 推荐 给 
Zookeeper 配置 专用 的 人 硬盘 写 数据 。ZooKeeper 在 内 存 里 提供 所 有 服务 ， 
不 过 它 也 要 把 数据 持久 化 存储 到 硬盘 ;如果 写 硬盘 很 慢 (由 于 VO 争 
用 ) 的 话 ， 这 将 降低 ZooKeeper 的 性 能 。 

除 此 以 外 ，ZooKeeper 不 需要 很 多 硬件 资源 。 你 可 以 简单 使 用 与 
HBase Master 一 样 的 硬件 配置 就 可 以 了 。 

小 结 

加 ZooKeeper 是 轻 量 级 进程 ， 但 是 对 延迟 很 敏感 。 

四 如 果 打 算 单 独 部 署 ZooKeeper， 选 择 与 HBase Master 类 似 的 硬件 
就 可 以 了 。 

国 HBase Master 和 ZooKeeper 可 以 并 行 部 署 在 一 起 ， 只 要 确保 
ZooKeeper 有 专用 的 硬盘 来 持久 化 存储 数据 即 可 。 如 有 条 并 行 部 署 在 一 
起 ， 那 么 需要 在 HBase Master 的 配置 基础 上 增加 一 块 便 盘 〈 给 ZooKeeper 
持久 化 存储 数据 〉。 











我 们 已 经 讨论 了 HBase 的 各 个 组 件 ， 并 且 讨 论 了 提供 什么 硬件 能 够 
使 它们 的 性 能 最 优 。 最近， 由 于 云 服 务 提供 给 用 户 的 灵活 性 ， 云 服务 
(cloud) 正在 变 得 流行 。 在 HBase 的 语 境 中 ， 我 们 认为 云 服 务 只 是 男 外 
一 种 具有 不 同 成 本 模型 的 硬件 选择 。 这 可 能 是 一 个 狭义 的 看 法 ， 但 是 让 
我 们 先 这 么 开始 。 重 要 的 是 ， 了 解 这 种 云 服 务 能 够 提供 的 各 种 特性 ， 以 
及 从 部 署 生 产品 质 的 HBase 实 例 的 角度 看 有 何 含义 。 

目前 ， 在 云 基 础 设施 领域 最 大 的 (最 早 的 ) 参与 者 是 Amazon Web 
Services (AWS) 。 其 他 一 些 参与 者 是 Rackspace 和 Microsoft。AWS 最 流 
行 ， 有 些 人 已 经 将 HBase 部 署 在 AWS 上 。 我 们 还 没有 看 到 部 署 在 
Rackspace 和 Microsoft 上 的 实例 。 可 能 因为 那些 部 署 是 顶级 秘密 ， 还 没 
有 公开 分 享 ， 只 是 我 们 不 知道 ! 至 于 这 一 节 ， 我 们 将 更 多 关注 AWS 提 
供 的 东西 ， 并 且 和 希望 我 们 讨论 的 大 部 分 内 容 对 于 其 他 提供 丙 也 能 适用 。 

从 规划 HBase 部 灵 的 背景 看 ，AWS 提 供 了 3 种 相关 的 服务 ， 即 Elastic 
Compute Cloud (EC2) 、Simple Storage Service (S3) 和 Elastic Block 
Store (EBS，http://aws.amazon. com/ebs/) 。 正 如 你 可 能 意识 到 的 ， 你 
需要 使 用 干净 的 服务 嚣 来 部 署 HBase， 而 EC2 就 是 提供 虚拟 服务 器 的 服 
务 。AWS 有 很 多 可 用 的 虚拟 机 配置 选项 (实例 类 型 参考 http://aws. 
amazon.com/ec2/#instance) ， 并 且 还 在 不 断 增加 选项 。 我 们 建议 使 用 至 
少 16 GBRAM、 足 够 的 计算 和 存储 资源 的 虚拟 机 实例 。 这 里 说 的 有 些 合 
糊 ， 但 考虑 到 这 种 情况 日 新 月 异 的 变化 趋势 ， 等 你 读 到 本 书 这 一 节 的 时 
候 ， 很 可 能 会 有 比 我 们 在 这 里 提 到 的 最 好 的 东西 还 要 好 的 新 东西 出 来 
re 

总 的 来 说 ， 请 遵循 如 下 建议 。 

加 至 少 配置 16 GBRAM。HBase RegionServer 很 耗 内 存 ， 但 是 又 不 能 
给 它 配 置 太 大 内 存 ， 人 否则 会 遇 到 Java 垃圾 回收 问题 。 本 章 后 面 我 们 将 讨 











论 如 何 优化 垃圾 回收 。 

加 配置 尽 可 能 多 的 硬盘 。 大 部 分 EC2 实例 在 写 数据 时 没有 提供 多 块 
硬盘 。 

上 晶 网 络 市 宽 越 大 越 好 。 

得 根据 个 人 的 使 用 场景 配置 充足 的 计算 资源 。MapReduce 作业 比 简 
单 的 网 站 服务 数据 库 需 要 更 多 的 计算 能 

有 些 EC2 实例 是 完整 的 机 器 ， 这 种 物理 服务 器 不 是 被 多 种 实例 共 
享 的 。 这 种 实例 大 部 分 更 适合 HBase 甚 至 Hadoop。 当 一 个 物理 服务 器 被 
多 个 实例 共享 时 ， 访 问 频繁 的 邻居 实例 可 能 会 严重 影响 性 能 。 如 有 果 邻 大 
实例 在 执行 密集 的 硬盘 IO 操作 ， 与 一 个 访问 较 少 的 邻居 实例 相 比 ， 你 
需要 启用 更 多 的 实例 并 且 可 能 在 实例 上 得 到 很 低 的 VO 性 能 。 

当 讨 论 云 病 的 Hadoop 或 HBase 的 时 候 ， 你 会 经 常 昕 到 人 们 谈论 S3 和 
EBS。 我 们 也 将 在 这 里 讨论 它们 。S3 是 一 种 持久 可 靠 的 文件 存储 服务 。 
通过 在 HBase 表 上 运行 导出 作业 并 且 把 导出 的 数据 写 到 S3 上 ， 可 以 用 
它 备份 HBase。 男 一 方面 ，EBS 可 以 被 附加 作为 EC2 实 例 的 远程 硬盘 
卷 ， 为 EC2 实 例 提 供 外 部 持久 化 存储 。 如 果 你 发 现 HBase 和 集群 启动 和 停 
止 非常 频繁 ， 这 种 服务 惑 能 派 上 用 场 。 你 可 能 把 HDFS 完全 存储 在 EBS 
上 ， 然 后 在 想 停 止 HBase 实例 ， 节 省 一 些 钱 的 时 候 ， 停 止 EC2 实例 。 
当 恢 复 HBase 实 例 时 ， 只 需要 提供 新 的 EC2 实 例 ， 然 后 挂 载 相同 的 EBS 
卷 ， 启 动 Hadoop 和 HBase 就 可 以 了 。 这 种 做 法 涉及 复杂 的 自动 化 脚本 。 

现在 ， 你 知道 了 云 服 务 的 配置 选项 以 及 如 何 选择 使 用 它们 ， 在 云端 
部 署 HBase 时 ， 多 方 听 取 赞 成 和 反对 的 论点 是 很 重要 的 。 你 会 听 到 人 们 
旗帜 鲜明 的 意见 ， 我 们 会 尽力 把 争论 限制 在 单纯 的 事实 和 它们 的 含义 
本 

加 成 本 一 一 云 服务 采用 随 用 随 付 的 成 本 模型 。 这 样 有 好 也 有 坏 。 在 
开始 使 用 HBase 之 前 ， 你 不 必 投 资 一 大 笔 钱 预先 购买 硬件 。 你 可 以 准备 
一 些 实例 ， 按 小 时 付费 ， 然 后 把 软件 安装 到 上 面 。 如 有 果 你 在 运行 24x7 的 











集群 ， 请 计算 一 下 费用 。 在 云端 的 实例 可 能 反而 比 在 自己 的 数据 中 心 或 
者 共享 的 数据 中 心里 配置 硬件 更 贵 。 

图 另 用 性 一 一 云 服务 提供 的 实例 只 要 调用 几 个 API 束 可 以 完成 。 为 
了 得 到 部 署 HBase 的 前 几 个 实例 ， 你 不 需要 通过 公司 可 能 遵循 的 硬件 采 
购 流程 。 如 果 节 点 宕 机 ， 多 局 用 一 些 束 可 以 了 。 一 切 就 这 么 简单 。 

上 晶 运 维 一 一 如 果 你 必须 自己 购买 硬件 ， 那 你 还 要 买 机 架 、 电 源 及 网 
络 设备 。 运 行 维护 这 些 设备 需要 一 些 人 力 资源 ， 为 此 你 还 需要 招 兵 买 
马 。 运 行 维护 服务 器 、 机 架 和 数据 中 心 可 能 不 是 你 的 核心 能 力 ， 可 能 
不 是 你 想 投资 的 地 方 。 如 果 你 使 用 AWS，Amazon 将 为 你 做 那些 工作 ， 
并 且 该 公司 在 这 些 方 面 拥 有 民 好 的 记录 。 

四 可 徘 性 一 一 EC2 实例 不 像 你 购买 的 专用 硬件 那么 可 靠 。 我 们 杀 眼 
看 见 过 一 些 实例 随机 挂 掉 ， 而 没有 任何 暗示 问题 的 性 能 下 降 过 程 。 随 痢 
时 间 变 化 ， 可 靠 性 问题 会 有 所 改善 ， 但 仍然 不 能 同 你 买 的 专用 机 器 相 
bs 

加 抉 之 定制 能 你 必须 从 AWS 提供 的 实例 类 型 中 选择 ， 而 不 
能 根据 你 的 使 用 场景 定制 。 如 果 自 己 购买 硬件 ， 你 可 以 定制 它 。 例 如 ， 
如 果 你 只 是 以 档案 的 方式 存储 大 量 数据 ， 那 么 你 需要 配置 高 密度 存储 ， 
而 不 是 很 多 计算 能 力 。 但 是 ， 如 果 你 想 执行 很 多 计算 任务 ， 你 必须 反 过 
来 ， 需 要 在 每 个 节点 配置 更 多 计算 能 力 ， 而 减少 存储 密度 。 

是 性 能 一 一 虚拟 化 不 是 没有 代价 的 。 你 要 在 性 能 上 付出 代价 。 一 些 
虚拟 化 类 型 比 其 他 的 会 好 些 ， 但 是 没有 性 能 不 受 影响 的 情况 。 对 硬盘 
IO 的 影响 比 其 他 因素 会 更 多 些 ， 而 这 一 点 对 HBase 影 响 最 大 。 

加 安 全 性 一 一 调查 云 服务 提供 商 给 出 的 安全 保证 。 有 时 候 对 于 敏感 
数据 这 是 个 问题 ， 你 可 能 想 拥 有 目 己 管理 的 硬件 ， 并 且 保 证 其 安全 性 。 

记 住所 有 这 些 建议 ， 做 出 你 的 硬件 选择 决定 。 归 根 结 底 ， 一 切 都 取 
决 于 成 本 ， 我 们 建议 根据 每 存储 单位 数据 的 文 出 或 者 每 个 读 写 操作 的 文 
出 来 评判 成 本 。 这 些 数字 很 难 计算 出 来 ， 但 在 你 选择 购买 专用 硬件 还 是 

































































公有 云 服务 时 ， 它 们 将 给 你 所 需要 的 洞察 力 。 一 旦 你 做 出 决定 ， 要 么 购 
买 便 件 ， 要 么 租用 云 实 例 ， 接 下 来 就 该 部 署 软件 了 。 





9.2 部 署 软 


管理 和 部 署 服务 器 集群 ， 尤 其 是 在 生产 环境 里 ， 是 一 件 不 简单 的 事 
情 ， 需 要 齐 慎 从 事 。 在 管理 和 部 署 的 过 程 中 ， 会 面临 各 种 各 样 的 挑战 ， 
我 们 将 在 这 里 列举 出 一 些 主要 的 挑战 。 这 些 挑战 并 不 是 说 不 能 解决 ， 或 
者 人 们 还 没有 解决 ， 而 是 说 它们 不 能 被 忽视 。 

在 部 署 大 批 机 器 的 时 候 ， 我 们 建议 你 尽 可 能 自动 化 部 车 过 程 ， 这 样 
做 有 几 个 原因 。 第 一 ， 你 不 用 在 所 有 需要 安装 的 机 器 上 重复 同样 的 过 
程 ， 第 二 ， 在 添加 新 节点 到 集群 的 时 候 ， 你 不 用 手工 确保 新 节点 被 正确 
安装 。 理 想 的 做 法 是 让 一 个 自动 化 系统 为 你 完成 所 有 这 些 工 作 ， 大 部 分 
公司 都 采用 了 这 样 形式 或 那样 形式 的 自动 化 系统 。 有 些 公 司 使 用 自主 开 
发 的 脚本 ， 而 其 他 公司 则 采用 开源 解决 方案 ， 如 
Puppet 〈http:/puppetlabs.com/) 或 者 Chef (www.opscode.com/chef/) 。 
还 有 一 些 商业 版 权 工 具 ， 如 HP Opsware。 如 果 你 是 在 云端 部 署 ， 可 以 使 
用 Apache Whirr (http://whirr.apache.org) 这 样 的 框架 来 帮忙 ， 轻 松 局 动 
和 配置 你 的 虚拟 机 实例 。 使 用 任何 这 些 框架 ， 你 可 以 创建 自 定义 的 清 
单方 法 /配置 ， 这 些 框架 使 用 它们 来 配置 和 部 署 运 行 它们 的 服务 器 。 它 
们 将 安装 操作 系统 ， 并 且 安 装 和 管理 各 种 软件 包 ， 包 括 Hadoop 和 
HBase。 它 们 也 有 助 于 集中 管理 配置 ， 这 下 是 你 希望 的 。 

像 Cloudera Manager 这 样 的 专业 工具 是 为 管理 Hadoop 和 HBase 而 专 
门 设 计 的 。 这 些 工具 拥有 很 多 专门 针对 Hadoop 的 管理 特性 ， 是 通用 软件 
包 管 理 框架 所 没有 的 。 

详细 讨论 所 有 这 些 工具 超出 了 本 书 的 范围 ;我们 的 目标 是 把 部 闭 时 
考虑 的 所 有 方法 介绍 给 你 。 我 们 先 投入 精力 在 其 中 一 种 框架 上 ， 随 着 时 





























间 推 移 ， 运 营 集 群 的 技术 将 变 得 越 来 越 简单 。 











如 果 打 算 在 云端 部 晋 HBase， 你 应 该 使 用 Apache Whir， 让 事情 变 
得 简单 一 些 。Whirr 0.7.1 不 支持 HBase 0.92， 但 是 你 可 以 使 用 下 面 列 出 
的 方法 在 集群 上 运行 CDH3。 这 里 给 出 的 方法 适用 于 AWS EC2 上 的 集 
群 ， 并 且 假 设 你 把 公 钥 (access key) 和 密 钥 〈secret key) 设置 为 环境 
变量 (AWS_ACCESS_KEY ID 和 AWS _ SECRET _ ACCESS KEY) 。 
你 可 以 把 这 种 方法 存 为 一 个 文件 ， 如 my_cdh_recipe， 然 后 把 它 作为 一 
个 配置 文件 传递 给 Whirr 脚 本 ， 见 代码 清单 9-1。 

代码 清单 9-1 通过 Whirr 方 法 (命名 为 my_cdh_recipe 的 文件 ) 启动 
CDH3 集 群 


$ cat my_cdh recipe 


whirr.cluster-name=ak-cdh-hbase 

whirr.instance-templates=1 zookeeper+hadoop-namenode+hadoop-jobtracker+hbase- 
master, 

5 hadoop-datanode+hadoop-tasktracker+hbase-regionserver 

hbase-site.dfs.replication=3 

whirr.zookeeper.install-function=install cdh zookeeper 

whirr.zookeeper.configure-function=configure cdh zookeeper 

whirr.hadoop.install-function=install cdh hadoop 

whirr.hadoop.configure-function=configure cdh hadoop 

whirr.hbase.install-function=install cdh hbase 

whirr.hbase.configure-function=configure cdh hbase 

whirr.provider=aws-ec2 

whirr.identity=${env:AWS ACCESS KEY ID} 

whirr.credential=$ {env:AWS SECRET ACCESS KEY} 

whirr.hardware-id=ml .xlarge 

# Ubuntu 10.04 LTS Lucid. See http://cloud.ubuntu.com/ami/ 

whirr.image-id=us-east-1/ami-04c9306d 

whirr.location-id=us-east-1 


可 以 使 用 这 些 方 法 启动 集群 ， 如 下 所 示 : 
bin/whirr launch-cluster --config my cdh recipe 


在 集群 启动 起 来 以 后 ， 可 以 使 用 list 命 令 列 出 构成 集群 的 节点 : 





bin/whirr list-cluster --config my_cdh recipe 





us-east-1/i-48c4e62c us-east-1/ami-04c9306d 23.20.55.128 10.188.69.151 
RUNNING us-east-1a Zookeeper, hadoop-namenode, 
hadoop-jobtracker, hbase-master 
us-east-1/i-4ac4e62e us-east-1/ami-04c9306d 50.17.58.44 

y 让 全 本 党 之 过 
RUNNING us-east-1la hadoop-datanode, 
hadoop-tasktracker, hbase-regionserver 
us-east-1/i-54c4e630 us-east-1/ami-04c9306d 107.21.147.166 10.4.189.107 
RUNNING us-east-1a hadoop-datanode, 
hadoop-tasktracker,hbase-regionserver 
us-east-1/i-56c4e632 us-east-1/ami-04c9306d 107.21.77.75 

TO T8808.229 
RUNNING us-east-1a hadoop-datanode, 
hadoop-tasktracker, hbase-regionserver 
us-east-1/i-50c4e634 us-east-1/ami-04c9306d 184.72.159.27 LTO0m4ma29..190 
RUNNING us-east-1la hadoop-datanode, 
hadoop-tasktracker,hbase-regionserver 
us-east-1/i-52c4e636 us-east-1l/ami-04c9306d 50.16.129.84 a 6 Be le 1 We 
RUNNING us-east-1a hadoop-datanode, 


hadoop-tasktracker,hbase-regionserver 


用 集群 完成 任务 后 ， 如 果 想 关闭 它 ， 可 以 使 用 destroy-cluster 命 令 ， 
如 下 所 示 : 


bin/whirr destroy-cluster --config my cdh recipe 


9.3 发 行 





本 节 将 研究 在 集群 上 安装 HBase。 这 并 不 是 构建 成 熟 产 品 部 署 的 参 
考 指南 ， 但 这 是 为 你 的 应 用 进行 完全 分 布 式 安装 的 起 点 。 让 HBase 运 转 
起 来 需要 做 更 多 的 工作 ， 我 们 在 第 10 章 会 研究 其 中 各 个 方面 。 

市 面 上 有 很 多 种 HBase 发 行 套件 (或 是 软件 包 ) ， 并 且 每 种 有 多 个 
版 本 。 目 前 最 有 名 的 发 行 套件 是 原生 的 Apache 发 行 套 件 和 Cloudera 公 司 
的 CDH。 

加 Apache 一 一 Apache HBase 项 目 是 所 有 HBase 开发 的 父 项 目 。 所 有 
代码 都 集中 到 那里 ， 各 个 公司 的 开发 者 给 它 贡 献 代码 。 和 其 他 开源 项 目 
一 样 ， 版 本 发 行 周期 取决 于 参与 者 (也 就 是 雇佣 开发 人 员 从 事项 目 开 发 
的 公司 ) 和 他 们 想 把 什么 特性 放 进 一 个 特定 的 版 本 。 一 般 来 说 ，HBase 
社区 和 它们 的 版 本 是 保持 一 致 的 。 其 中 值得 注意 的 版 本 包括 0.20.X、 





0.90.x、0.92.x 和 0.94.x。 本 书 专注 于 0.92.x。 

加 Cloudera 公 司 的 CDH 一 Cloudera 是 一 家 在 生态 系统 中 有 自己 发 
行 版 本 的 公司 ， 包 括 Hadoop 和 其 他 模块 (包含 HBase〉。 这 个 套件 被 称 
为 CDH (Cloudera’s distribution including Apache Hadoop) 。CDH 建立 
在 Apache 的 代码 基础 上 ， 采 用 了 特殊 发 行 原本 ， 并 在 里 面 添加 了 没有 
包含 在 任何 Apache 官方 发 行 版 本 中 的 许多 补丁 。Cloudera 也 根据 客户 
需求 添加 额外 的 特性 。 在 Apache 代 码 基础 里 的 补丁 不 一 定 出 现在 CDH 所 
基于 的 同一 代码 基础 分 文 里 。 

我 们 推荐 使 用 Cloudera 的 CDH 套 件 。 通 常 它 比 原生 的 Apache 发 布 版 
包含 更 多 补丁 ， 用 来 增加 稳定 性 、 改 善 性 能 、 有 时 候 增 加 功能 特性 。 
CDH 也 比 Apache 版 本 被 更 好 地 测试 过 ， 并 且 比 原生 Apache 运 行 在 更 多 
的 生产 集群 上 。 在 你 为 集群 选择 发 行 版 本 前 ， 我 们 建议 考虑 这 些 要 点 。 

对 于 提供 的 安装 步骤 ， 我 们 假设 你 已 经 安装 了 Java、Hadoop 和 
ZooKeeper。 关 于 安装 Hadoop 和 ZooKeeper 的 操作 指南 ， 请 参考 你 选择 的 
发 行 版 本 的 文档 。 











9.3.1 隶 生 Apache 发 行 


要 安装 原生 Apache 版 本 ， 需 要 下 载 tar 压 缩 包 ， 然 后 把 它们 安装 到 你 
选择 的 目录 里 。 许 多 人 创建 一 个 专门 用 户 来 运行 所 有 的 守护 进程 ， 并 且 
把 文件 夹 放 到 那个 用 户 的 主 目 录 里 。 但 我 们 一 般 建议 安装 
到 /usr/localMlib/hbase 目 录 ， 并 且 把 它 作 为 HBase 主 目录 ， 这 样 所 有 用 户 
都 能 访问 到 里 面 的 文件 。 

在 HBase 主 页 上 有 详细 的 安装 指导 ， 并 且 有 时 候 不 同 版 本 会 有 所 不 
同 。 总 之 ， 我 们 列 出 遵循 的 安装 步骤 ， 如 下 所 示 。 这 些 步 又 专门 针对 
0.92.1 版 本 ， 不 过 你 可 以 使 用 你 想 用 的 任何 版 本 。 

(1) 从 一 个 Apache 镜像 网 站 下 载 tar 压缩 包 。 对 于 0.92.1 版 本 ， 
压缩 包 的 名 字 是 hbase-0.92.1.tar.gz: 














cd /tmp 
wget http://mirrors.axint.net/apache/hbase/hbase-0.92.1/ 
hbase-0.92.1.tar.gz 


mv /tmp/hbase-0.92.1.tar.gz /usr/local/lib 
(2) 切换 到 root 用 户 ， 解 压 压缩 包 到 /usr/local/lib 目录 下 ， 并 创建 
一 个 符号 链接 从 /usr/local/lib/hbase 指 癌 新 创建 的 目录 。 这 样 ， 你 可 以 把 
$HBASE_HOME 环 境 变 量 定义 为 /usr/local/lib/hbase 目 录 ， 它 将 指 到 当前 
的 安装 目录 : 
tar XVEZ hbaS5e-0.92. 由, 七 am ,2Z 
cd /usr/local/lib 
ln -s hbase-0.92.1 hbase 
就 这 些 。 现 在 你 需要 做 各 种 配置 ， 一 切 准 备 好 了 ! 
9.3.2 Cloudera 的 CDH 发行 


CDH 的 当前 发 行 版 本 是 CDH4u0， 它 基于 Apache 0.92.1 版 本 。 它 的 
安装 命令 和 环境 有 关 ， 基 本 步骤 如 下 所 示 。 

(1) 把 CDH 库 添加 到 你 的 系统 。 如 果 你 使 用 Red Hat 系列 的 系 
统 ， 可 以 使 用 yum 软 件 包 管 理工 具 : 


cd /etc/yum.repos.d 


wget http://archive.cloudera.com/cdh4/redhat/6/x86 64/cdh/ 
cloudera-cdh4 .repo 


如 果 你 使 用 Debian/Ubuntu 系 列 的 系统 ， 则 可 以 使 用 apt 软 件 包 管理 
工具 : 
wget http://archive.cloudera.com/cdh4/one-click-install/precise/amd64/ 
cdh4-repository 1.0 all.deb 
sudo dpkg -i cdh4-repository 1.0 all.deb 


在 Cloudera 的 文档 网 站 上 可 以 找到 详细 的 特定 环境 的 安装 指南 ， 参 
见 http:/mng.bz/ukS3。 

(2) 安装 HBase 软 件 包 。 在 CDH4 中 该 软件 包 的 名 字 分 别 是 hbase、 
hbase-master 和 hbase-regionserver。hbase 软 件 包 包含 HBase 的 二 进 制 文 
件 。 其 他 两 个 软件 包 分 别 包 含 用 于 帮助 你 启动 和 停止 Master 和 
RegionServer 进 程 的 init 脚 本 。 


下 面 命令 用 于 在 Red Hat 系 列 的 系统 上 安装 HBase: 
sudo yum install hbase 


sudo yum install hbase-master 


sudo yum install hbase-regionserver 


而 下 面 这 些 命令 用 于 在 Debian/Ubuntu 系 列 的 系统 上 安装 HBase: 
sudo apt-get install hbase 


sudo apt-get install hbase-master 

sudo apt-get install hbase-regionserver 

安装 这 些 软 件 包 将 把 库 文件 放 到 /usr/lib/hbase/ 目 录 下 ， 把 配置 文件 
放 到 /etc/hbase/conf/ 目 录 下 。 用 来 启动 和 停止 Master 和 RegionServer 进 程 
的 init 脚 本 分 别 是 /etc/init.d/hbase-master 和 /etc/ init.d/hbase-regionserver。 

注意 ， 你 不 必 在 所 有 节点 上 安装 Master 和 RegionServer 的 脚本 。 只 
需要 在 所 有 工作 节点 (slave node) 上 安装 hbase-regionserver 软件 包 ， 以 
及 在 运行 HBase Master 进 程 的 节点 上 安装 hbasemaster 软 件 包 。 因 为 hbase 
软件 包 包含 了 实际 的 二 进 制 文件 ， 所 以 它 需 要 被 安装 在 所 有 节点 上 。 


9.4 配置 














部 署 HBase 需 要 配置 Linux、Hadoop， 当 然 还 有 HBase。 有 些 配 置 直 
截 了 当 ， 可 以 基于 多 个 生产 部 署 的 经 验 给 出 建议 。 但 有 些 配 置 更 多 是 反 
复试 验 ， 取 决 于 使 用 场景 和 HBase 部 署 所 服务 的 SLA。 没 有 一 套 通用 的 
配置 对 所 有 场景 适用 ， 在 生产 环境 中 最 终 确 定 运 行 方式 来 文 撑 你 的 应 用 
之 前 ， 很 可 能 你 会 多 次 改动 一 些 配置 。 

为 了 以 最 优 方 式 配置 系统 ， 重 要 的 是 了 解 各 个 参数 以 及 采用 这 种 或 
者 那 种 方式 优化 它们 的 含义 。 本 节 会 让 你 深入 了 解 一 些 在 部 车 HBase 实 
例 时 很 可 能 会 用 到 的 、 重 要 的 配置 参数 。 首 先 研究 HBase 特 有 的 配置 参 
数 ， 然 后 再 研究 影响 HBase 安 装 的 Hadoop 和 Linux 的 相关 配置 参数 。 


9.4.1 HBase 配置 














就 像 Hadoop 一 样 ，HBase 需 要 考虑 两 方面 配置 。 一 方面 是 针对 
Linux 的 特定 配置 〈 即 环境 配置 ) ， 这 不 同 于 我 们 将 在 后 面 解释 的 操作 
系统 层级 的 配置 。 男 一 方面 是 针对 HBase 守 护 进 程 的 配置 ， 这 些 配 置 在 
启动 时 会 被 守护 进程 读 取 。 

在 HBase 集群 中 ， 配 置 文件 的 位 置 取决 于 你 使 用 的 安装 版 本 。 如 果 
你 使 用 Apache 发 行 版 本 ， 配 置 文件 保存 在 $HBASE_HOME/conf/ 目 录 
下 ; 如 果 你 使 用 CDH 发 行 版 本 ， 它 们 则 保存 在 /etc/hbase/conf/ 目 录 下 。 
一 般 来 说 ， 我 们 建议 在 处 理 权限 许可 和 文件 位 置 时 ， 与 你 所 在 的 公司 的 
最 佳 实践 保持 一 致 。CDH 遵 守 标 准 的 Iinux 目 录 结 构 ， 相 应 地 存放 配置 
文件 。 这 种 做 法 可 以 被 大 多 数 系统 管理 员 和 IT 部 门 所 接受 。 

1. 环境 配置 

环境 配置 存放 在 hbase-env.sh 文件 里 。 该 文件 被 运行 HBase 进程 

(Master 和 RegionServer) 的 脚本 引用 ， 因 此 ， 像 Java 堆 大 小 、 垃 圾 收 
集 参 数 和 其 他 环境 变量 等 参数 都 在 这 个 文件 里 设置 的 。 一 个 示例 文件 如 
代码 清单 9-2 所 示 。 

代码 清单 9-2 hbase-env.sh 示 例文 件 








export JAVA HOME=/my/java/installation Ci Ne 
2 | 设置 Java 安装 路 径 


export HBASE HOME=/my/hbase/installation Ts i 
> 多 设置 HBase 安装 路 径 


export HBASE MASTER OPTS="-Xmx1000m" < 了 RN 
设置 Master 进程 的 Java 选项 。 
在 这 设置 垃圾 回收 
export HBASE_REGIONSERVER_OPTS="-Xmx10000m -XX:+UseConcMarkSweepGC 
-XX:+CMSIncrementalModen" 设置 RegionServer 进程 的 Java 属性 。 | 
在 这 设置 垃圾 回收 
#export HBASE REGIONSERVERS=${HBASE HOME}/conf/regionservers 


设置 包含 RegionServer 列表 的 文件 名 。 只 在 使 用 8HBASE_HOME/bin 
里 的 启动 和 停止 脚本 时 需要 


export HBASE LOG DIR=${HBASE HOME}/logs 4 
HBase 后 台 进 程 的 日 志 放 置 位 置 。 这 是 可 选 的 ， 你 可 以 配置 把 日 志文 件 放 到 /varlogs/hbase/ 
目录 。 在 CDH 中 ， 这 是 自动 配置 的 ; 如 果 你 使 用 Apache 发 行 版 ， 则 需要 手动 配置 


export HBASE MANAGES ZK=false 





| HBase 能 够 为 你 管理 ZooKeeper， 
但 是 在 生产 环境 里 建议 你 单独 管理 


这 并 不 是 一 个 完整 的 文件 。 你 还 可 以 在 这 里 设置 其 他 参数 ， 如 
HBase 进 程 的 niceness 参 数 。 你 可 以 从 安装 目录 里 得 找 默 认 的 hbase- 
env.sh 文 件 ， 查 看 其 他 可 用 的 配置 选项 。 在 这 里 列 出 来 的 是 在 95% 的 时 
间 里 你 会 用 到 的 配置 选项 。 大 多 数 情 况 下 ， 你 不 需要 配置 其 他 参数 。 

在 这 里 ， 内 存 分 配 和 垃圾 回收 是 两 个 重要 的 配置 参数 。 如 果 你 希望 
HBase 部 署 发 挥 恨 好 的 性 能 ， 注 意 这 两 个 配置 是 至 关 重 要 的 。HBase 是 
一 个 数据 库 ， 需 要 很 多 内 存 来 提供 低 延 迟 的 读 写 。 实 时 (real-time) 是 
一 个 经 和 常用 到 的 词 一 一 它 的 意思 是 不 用 人 花 帝 数 分 钟 惑 能 找到 你 想 读 的 行 
的 内 容 。 只 依赖 行 键 索引 ， 束 能 快速 找到 将 要 读 写 的 行 的 位 置 。 索 引 被 
保存 在 内 存 里 ， 而 写 缓存 也 是 保存 在 内 存 里 。 还 记得 我 们 在 第 2 章 介绍 
的 读 写 过 程 吗 ? 为 了 提供 这 个 功能 和 保证 性 能 ，HBase 需 要 内 存 一 一 很 
多 内 存 ! 不 过 你 也 不 要 给 它 太 多 内 存 。 

注意 任何 东西 太 多 了 都 不 好 ， 即 使 是 用 于 新 型 大 规模 数据 库 的 内 
存 也 如 此 。 

我 们 不 建议 在 生产 环境 HBase 部 署 中 给 RegionServer 分 配 超过 15 

















GB 的 堆 空 间 。 不 要 超过 限额 和 不 分 配 超 过 15 GB 的 推 空间 的 原因 在 
于 ， 垃 圾 回收 开始 变 得 很 耗 性 能 。 因 为 你 不 会 很 快 达到 内 存 限 制 ， 垃 圾 
回收 执行 的 频率 会 变 小 ， 但 是 垃圾 回收 每 次 出 现 ， 将 持续 更 长 的 时 间 ， 
因为 它 要 扫描 更 大 的 内 存 区 域 。 这 并 不 意味 着 15 GB 是 个 魔力 数字 ， 也 
不 是 你 可 以 给 RegionServer 配 置 的 最 大 堆 空 间 ， 它 只 是 个 好 的 初始 建议 
值 。 我 们 建议 在 你 的 环境 中 对 扒 空 间 大 小 做 试验 ， 看 看 什么 值 最 合适 ， 
什么 值 可 以 让 你 的 应 用 性 能 满足 SLA。 

分 配 最 优 的 堆 空间 并 不 能 解决 所有 问题 。 你 还 需要 优化 垃圾 回收 。 
这 比 提 到 的 分 配给 RegionServer 的 堆 大 小 选择 要 更 复杂 一 些 。 

Java 垃 圾 回收 

在 Java 程 序 里 ， 创 建新 对 象 大 多 数 使 用 new 操 作 符 。 这 些 对 象 在 
JVM 的 堆 中 被 创建 。 当 这 些 对 象 被 释放 时 ，Java 垃 圾 回收 删除 那些 没有 
引用 的 对 象 来 释放 占用 的 内 存 。 垃 圾 回收 运行 的 默认 配置 做 了 若干 特定 
假设 〈 关 于 在 创建 和 删除 对 象 时 程序 在 做 什么 ) ， 这 些 配置 对 所 有 使 用 
场景 不 一 定 是 最 优 的 。 

在 Java 垃圾 回收 默认 配置 的 情况 下 ，HBase RegionServer 的 性 能 不 
是 很 好 ， 如 果 你 想 文 撑 更 多 负载 ， 则 需要 在 多 种 场合 反复 细心 地 做 优 
化 。 这 个 配置 信息 存放 在 集群 中 所 有 节点 上 的 hbase-env.sh 文 件 里 。 可 以 
设置 HBase Java 选项 的 初始 值 ， 如 下 所 示 : 


-Xmx8g -Xms8g -Xmn128m -XX:+UseParNewGC -XX:+UseConcMarkSweepGC 
-XX:CMSInitiatingOccupancyFraction=70 


让 我 们 看 看 各 个 选项 的 含义 。 

加 -Xmx8g 一 一 设置 进程 的 最 大 堆 空 间 。8 GB 是 一 个 合适 的 初始 
值 。 我 们 不 建议 设置 超出 15 GB。 

加 -Xms8g 一 一 设置 初始 堆 大 小 为 8 GB。 在 进程 启动 的 时 候 ， 直 接 
分 配 最 大 堆 空 间 是 个 好 主意 。 这 避免 了 在 RegionServer 需 要 更 多 空间 的 
时 候 ， 需 要 额外 开销 增加 扒 空 间 。 























四 -Xmn128m 一 一 设置 年 轻 代 大 小 为 128 MB。 同 样 ， 这 并 不 是 总 是 
正确 的 魔力 数字 ， 但 它 是 一 个 好 的 初始 值 。 如 果 默 认 年 轻 代 空间 太 小 ， 
当 增 加 负载 的 时 候 ， RegionServer 会 频繁 激进 地 启动 垃圾 回收 。 这 将 增 
加 你 的 CPU 使 用 率 。 如 有 果 设 置 年 轻 代 空间 太 大 的 话 ， 会 市 来 不 能 充分 进 
行 垃圾 回收 的 风险 ， 这 样 会 把 对 象 转移 到 年 老 代 ， 从 而 导致 在 垃圾 回收 
执行 时 更 长 的 暂停 时 间 。 在 MemStore 被 刷 写 后 ( 当 你 往 HBase 表 里 插入 
数据 时 这 种 现象 会 频繁 发 生 ) ， 那 些 对 象 将 不 再 被 引用 并 且 需 要 被 回 
收 。 把 它们 转移 到 年 老 代 ， 会 叶 致 在 清除 对 象 后 堆 空 间 变 得 雄 片 化 。 

加 -XX:+UseParNewGC 一 一 设置 垃圾 回收 器 对 年 轻 代 使 用 并 行 收集 
器 。 这 种 收集 器 会 暂停 Java 进程 ， 然 后 进行 垃圾 回收 。 因 为 年 轻 代 比 较 
小 ， 并 且 进 程 不 会 停止 很 长 时 间 〈 通 常 几 旦 秒 ) ， 这 种 工作 模式 对 它 是 
可 接受 的 。 这 种 暂停 有 时 也 被 称 为 stop-the-world 垃圾 回收 暂停 ， 如 果 和 暂 
停 时 间 太 长 ， 它 们 可 能 是 致命 的 。 如 果 垃 圾 回收 暂停 超过 了 ZooKeeper 
和 RegionServer 会 话 的 超时 时 间 ， 因 为 ZooKeeper 不 能 从 RegionServer 
那里 得 到 心跳 信息 ，ZooKeeper 会 认为 它 下 线 了 ， 就 会 把 它 从 集群 中 移 
除 。 

国 -XX:+UseConcMarkSsweepGC 一 一 因为 年 老 代 空 间 比 年 轻 代 大 ， 
并 行 垃圾 收集 器 对 年 轻 代 是 合适 的 ， 但 对 年 老 代 就 不 是 那么 合适 了 。 对 
年 老 代 来 说 ， stop-the-world 垃圾 回收 要 持续 几 秒 ， 会 导致 超时 。 打 开 
并 发 标记 扫描 〈concurrent-mark-and-sweep) 垃圾 回收 可 以 缓解 这 个 问 
题 。CMS 垃 圾 回收 和 其 他 任务 在 JVM 中 并 行进 行 ， 它 不 会 暂停 进程 ， 直 
到 它 的 垃圾 回收 任务 失败 ， 给 出 错误 提示 。 屠 时， 进程 则 需要 被 暂 集 并 
日 执行 垃圾 回收 。 因 为 CMS 执行 垃圾 回收 的 时 候 ， 其 他 进程 仍 在 并 行 
运行 ，CMS 会 增加 CPU 的 压力 。 

加 -XX:CMSInitiatingOccupancyFraction 一 一 CMS 收集 右 可 以 被 配置 
为 当 堆 空间 被 使 用 到 一 定 比 例 时 启动 执行 。 该 参数 就 是 设置 那个 比例 
的 。 如 果 设 置 的 比例 太 低 ， 将 导致 CMS 经 常 启动 ， 而 设置 比例 太 高 ， 叉 








会 导致 执行 太 述 级， 引起 更 多 的 错误 提示 。 一 个 比较 好 的 初始 值 是 
70%; 在 你 对 系统 进行 性 能 基准 测试 后 ， 可 以 根据 需要 调 高 或 调 低 这 个 
值 。RegionServer 的 堆 由 BlockCache (默认 是 堆 的 20%) 和 
MemStore 〈 默 认 是 扒 的 40%) 组 成 ， 设 置 70% 的 占 比 只 是 稍微 高 于 上 述 
两 者 之 和 。 

在 问题 发 生 时 ， 输 出 垃圾 回收 活动 日 志 进 行 故 障 排 错 是 很 有 帮助 
的 。 你 可 以 在 垃圾 回收 配置 中 添加 下 面 两 行 来 启用 日 志 输 出 : 
-verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps 
-Xloggc:$HBASE HOME/logs/gc-$ (hostname) -hbase.1og 

HBase 推 空间 和 垃圾 回收 优化 对 于 系统 的 性 能 是 至 关 重 要 的 ， 在 规 
划 生 产 系 统 的 时 候 ， 我 们 勤 励 你 对 设置 进行 大 量 测 试 。 根 据 运 行 HBase 
的 硬件 种 类 和 和 希望 运行 的 负载 种 类 ， 这 种 优化 会 有 不 同 。 例 如 ， 写 密集 
型 工作 负载 比 读 密集 型 工作 负载 需要 稍 大 些 的 年 轻 代 大 小 。 

2. HBase 配 置 

HBase 守 护 进程 的 配置 参数 存放 在 hbasesite.xml 文 件 里 。 这 个 XML 
配置 文件 也 可 以 被 客户 端 应 用 使 用 。 你 把 它 保存 在 客户 端 应 用 的 类 路 径 

Cclasspath) 下 ， 在 实例 化 HBaseConfiguration 对 象 的 时 候 ， 客 户 端 应 用 

会 恋 取 XML 配置 文件 ， 然 后 提取 相关 的 参数 。 

既然 你 知道 了 配置 文件 的 位 置 ， 就 让 我 们 看 看 它 的 内 容 和 参数 是 如 
何 定 义 的 。 一 个 XML 配 置 文件 的 示例 如 代码 清单 9-3 所 示 。 这 并 不 是 一 
个 完整 的 文件 ， 只 包含 了 给 你 展示 格式 的 一 个 参数 。 我 们 稍 后 将 列举 出 
很 多 参数 和 它们 的 含义 。 

代码 清单 9-3 hbase-site.xml 配 置 文件 的 格式 


























<2Xml Versions"L.0"3Ss 
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 


<configuration> 
<property> 
<name>hbase.rootdir</name> 
<value>file:///tmp/hbase-${user.name}/hbase</value> 
<description>The directory shared by region servers and into 
which HBase persists. 
</description> 
</property> 
</configuration> 


该 配置 文件 是 一 个 标准 的 XML 文件， 每 组 <property> 标 签 代表 一 
个 配置 参数 。 你 可 能 会 用 到 几 个 参数 。 最 重要 的 配置 参数 如 下 。 

加 hbase.Zookeeper.quorum 一 HBase 集群 中 的 所 有 组 件 都 需要 知道 
哪些 服务 器 构成 ZooKeeper quorum。 该 配置 参数 就 是 放置 这 个 信息 的 地 


方 。 其 XML 标签 如 下 所 示 : 
property> 


<name>hbase.zookeeper.quorum</name> 

<value>serverlip,server2ip,server3ip</value> 
</property> 

加 hbase.rootdir 一 HBase 在 HDFS 上 持久 化 存储 它 的 数据 ， 使 用 该 
参数 明确 地 配置 数据 的 存储 位 置 。 其 XML 标 签 如 下 所 示 : 


<property> 
<name>hbase.rootdir</name> 
<value>hdfs://namenode.yourcompany.com:5200/hbase</value> 
</property> 
5200 是 NameNode 配 置 的 监听 端口 。 在 安装 Hadoop 的 时 候 ， 它 在 


hdfs-site.xml 文 件 里 配置 。 

加 hbase.cluster.distributed 一 HBase 可 以 运行 在 单机 模式 、 伪 分 布 
式 模式 或 完全 分 布 式 模式 下 。 单 机 模式 和 伪 分 布 式 模式 只 用 于 测试 和 研 
究 ， 不 能 用 于 生产 环境 。 完 全 分 布 式 模式 被 设计 用 于 生产 用 途 ， 要 运行 
完全 分 布 模式 ， 需 要 把 hbase.cluster.distributed 属 性 设置 为 tue。 其 XML 
标签 如 下 : 

















<property> 
<name>hbase.cluster.distributed</name> 
<value>true</value> 
</property> 
为 了 让 HBase 运 行 在 分 布 式 模式 下 ，hbase-site.xml 文 件 中 的 这 3 个 参 
数 必 须 被 设置 。 其 他 配置 参数 一 般 用 来 优化 集群 的 性 能 ， 根 据 你 的 使 用 
场景 和 SLA 定义 ， 在 优化 系统 的 时 候 你 可 能 会 配置 它们 。 这 些 参数 如 
表 9-1 所 示 。 这 不 是 一 张 hbase-site.xml 文 件 可 以 包含 的 全 部 配置 参数 的 完 
整 列表 ， 其 中 列 出 的 只 是 你 可 能 需要 调整 的 配置 参数 。 如 果 想 查看 完整 
的 参数 列表 ， 我 们 建议 查看 源 代码 里 的 hbase-default.xml 文 件 。 
表 9-1 HBase 配 置 参 数 














配置 参数 信和 织 
hbase.client.scanner 定义 在 扫描 器 中 调用 next 方法 时 取 回 的 行 数 。 数 值 越 
"Coaching 大 ， 在 扫描 时 客户 端 需要 对 RegionServer 发 出 的 远 


程 调用 次 数 越 少 。 数 值 越 大 ， 也 意味 客户 端 要 消耗 内 存 
越 多 。 这 也 可 以 基于 每 个 客户 端 在 配置 对 象 中 进行 设置 

hbase.balancer.period region 均衡 器 在 HBase Master 中 周期 性 运行 。 该 属性 定 
义 了 你 让 均衡 器 运行 的 时 间 间 隔 。 默 认 是 5$ 分 钟 ， 以 毫 
秒 为 单位 设置 (300 000 ) 


hbase.client.write.buffer 客户 端 HTable 实例 的 写 缓存 ， 按 字 节 数 配 置 。 缓 存 越 
大 ， 意味 着 在 写 期 间 RPC 次 数 越 少 , 但 内 存 消耗 也 越 高 


hbase.hregion 大 合并 可 以 配置 为 周期 性 发 生 。 该 配置 参数 以 毫秒 为 单 
.majorcompaction 位 定义 时 间 间 隔 。 默 认 值 是 1 天 〈86 400 000 ms) 


续 表 


配置 参数 


hbase.hregion.max 
.filesize 


hbase.hregion.memstore 
.flush.size 


hbase.hregion 
.memstore.mslab 
.enabled 


hbase.hstore 
.blockingStoreFiles 


hbase.hstore.compaction 
.Max 


hbase.hstore 
.CompactionThreshold 


hbase .mapreduce 
.hfileoutputformat 
.blocksize 


hbase.master.info.port 


hbase.master.port 


hbase.regionserver.port 


介 绍 


底层 存储 文件 (HStoreFile) 的 最 大 值 。region 大 小 由 这 个 参数 
定义 。 如 果 列 族 的 存储 文件 超过 这 个 值 ，region 会 被 拆 分 


MemStore 的 最 大 值 ， 按 字 节 为 单位 配置 。 当 MemStore 超过 
这 个 值 时 ， 它 会 被 刷 写 到 硬盘 。 一 个 周期 性 运行 的 线程 检查 
MemStore 的 大 小 。 线 程 运行 的 频率 由 hbase.server. 
thread. wakefrequency 参数 定义 


MemStore-Local Allocation Buffer 是 HBase 的 一 个 特性 ， 
用 来 在 出 现 密集 写 时 防止 堆 碎 片 化 。 有 些 情况 下 ， 打 开 
这 个 特性 有 助 于 缓解 由 于 堆 太 大 引起 的 垃圾 回收 暂停 太 
长 的 问题 。 它 的 默认 值 是 true 


如 果 region 里 某 个 列 族 的 存储 文件 数目 超过 这 个 值 ， 写 会 
阻塞， 直到 合并 完成 或 者 阻塞 超时 。 超 时 时 间 用 
hbase.hstore.blockingWaitTime 参数 进行 配置 ， 以 毫 
秒 为 单位 


配置 在 单个 小 合并 中 进行 合并 的 最 多 文件 数 。 默 认 值 是 7 


在 某 个 列 族 的 存储 文件 数 达 到 这 个 值 时 ，HBase 在 那个 
region 上 执行 合并 。 给 这 个 参数 设置 的 值 越 大 , 会 导致 执 
行 合并 的 频率 越 低 ， 执 行 时 花费 的 时 间 越 长 


HFile 的 数据 块 大 小 在 每 张 表 的 每 个 列 族 层级 进行 设置 。 该 
参数 决定 了 HFile 建立 索引 的 粒度 。 数 据 块 越 小 ， 导 致 随机 
读 取 性 能 越 好 ， 但 同时 数据 块 索引 也 越 大 ， 这 意味 着 消耗 
内 存 越 多 。 当 你 在 MapReduce 作业 中 使 用 
HFileOutputFormat 直接 把 数据 写 到 HFile 时 ， 必 须 使 
用 这 个 属性 定义 数据 块 的 大 小 ， 因 为 MapReduce 代码 没有 
访问 表 的 定义 ， 不 知道 列 族 是 怎么 配置 的 


我 们 稍 后 将 讨论 HBase 用 户 界面 ， 它 通过 这 个 端口 访问 。 其 Web 
用 户 界 面 的 地 址 是 httpymasteryourcompanycom: 
<hbase.masterinfo.port>。 端 口 默认 值 是 60010 


这 是 Master 进程 的 监听 端口 。 默 认 值 是 60000。 大 部 分 情 
况 下 ， 你 不 必 改 变 端 口 默认 值 ， 除 非 你 要 关闭 某 些 端口 ， 
包括 HBase 的 默认 端口 


这 是 RegionServer 的 监听 端口 


配置 参数 介 绍 


hbase.regionserver.global upperLimit 定义 在 一 个 RegionServer 上 MemStore 总 
.memstore.lowerLimithbase 共 可 以 使 用 的 堆 的 最 大 百分比 。 遇 到 upperLimit 的 
人 regionserver .global .memstore 时 候 , MemStore 被 刷 写 到 硬盘 ,直到 遇 到 lowerLimit 
OE 时 停止 。 把 这 两 个 参数 的 值 设置 为 彼此 相等 意味 着 发 生 
的 刷 写 数据 量 最 小 ， 那 时 因为 upPperLimit 一 直 被 过 
到 所 以 写 操作 被 阻塞 。 这 样 做 会 把 写 过 程 中 的 暂停 时 间 
降 到 最 短 ， 但 是 也 会 导致 更 加 频繁 地 刷 写 动作 
hbase.regionserver.handler 在 RegionServer 和 Master 进程 上 可 以 启动 的 RPC 监听 器 


‘Count 数量 

hbase .regionserver 不 管 HLog 文件 中 有 多 少 edits, Hlog 多 久 必 须 刷 写 一 次 到 

“optionallogflushinterval 文件 系统 。 这 个 参数 以 毫秒 为 单位 进行 配置 。 默 认 值 是 1 
秒 (1000 ms) 

hbase.regionserver 一 个 系统 拥有 的 region 数量 的 最 大 值 。 默 认 值 是 

"regionSplitLimit MAX_INT (2 147 483 647) 

hbase.tmp.dir 在 本 地 文件 系统 上 HBase 使 用 的 临时 目录 

hfile.block.cache.size 数据 块 缓存 可 以 使 用 的 堆 的 最 大 占 比 。 数 据 块 缓存 就 是 
读 缓 存 (LRU) 


zookeeper.session.timeout HBase 守护 进程 和 客户 端 都 是 ZooKeeper 的 客户 端 。 这 个 参 
数 是 它们 和 ZooKeeper 之 间 会 话 的 超时 时 间 。 该 参数 以 毫秒 


为 单位 进行 配置 
zookeeper.znode.parent 在 ZooKeeper 中 HBase 的 znode 根 目 录 。 默 认 是 /hbase。 
所 有 HBase 的 ZooKeeper 文件 都 被 配置 为 使 用 该 目录 作 
为 父 目录 
9.4.2 与 HBase 有 关 的 Hadoo 参 类 


正如 你 知道 的 ，Hadoop 和 HBase 是 紧密 耦合 的 。HBase 使 用 HDFS 作 
为 基础 系统 ，Hadoop 的 配置 方式 会 影响 到 HBase。 优 化 好 HDFS 会 极 大 
地 提高 HBase 的 性 能 。 表 9-2 里 介绍 了 一 些 重要 的 配置 参数 。 
表 9-2 对 于 HBase 来 说 一 些 重要 的 HDFS 配 置 参 数 





配置 参数 





dfs.support .append HBase 需要 持久 同步 到 HDFS， 这 样 在 edits 被 写 入 时 ， 
预 写 日 志 WAL) 将 被 持久 化 。 如 果 在 RegionServer 宕 
机 时 数据 没 被 持久 化 到 硬盘 ， 没 有 持久 同步 则 HBase 会 
丢失 数据 。 这 个 参数 必须 被 明确 设 为 ttue， 使 HDFS 上 的 
同步 生效 。 这 个 特性 在 Hadoop 0.20.205 及 更 高 的 版 本 可 
用 。 对 于 HBase 0.92， 你 很 可 能 使 用 Hadoop 1.0.x 或 更 
高 的 版 本 ， 它 们 文 持 同步 





续 表 


配置 参数 介 绍 
dfs.datanode.max.xcievers" | 在 DataNode 上 xcievers 的 最 大 值 是 一 个 重要 的 配置 参 
数 ， 并 且 它 经 常 不 能 被 Hadoop 的 管理 员 很 好 地 了 解 。 它 
定义 了 每 个 DataNode 上 HDFS 客户 端 可 以 用 于 读 写 数据 
的 套 接 字 / 线 程 的 最 大 数量 。Lars George 为 它 写 过 一 个 
很 全 面 的 介绍 ， 我 们 推荐 阅读 这 篇 文章 以 更 好 地 理解 它 
做 了 什么 。 大 部 分 情况 下 ， 你 可 以 把 它 设 为 4 096。 默 认 
值 256 太 低 了 ， 如 果 你 有 稍微 密集 的 IO 负载 ， 你 会 在 
RegionServer 的 日 志 中 看 到 IOException 





a. 是 的 ， 就 是 这 么 拼写 的 ， 不 是 xceivers。 


b. Lars George,“HBase + Hadoop + Xceivers,”March 14, 2012， 
http:/mng.bz/Fcd4。 


如 果 在 HBase 表 上 运行 MapReduce 作 业 ， 那 么 不 但 HDFS 的 配置 会 影 
啊 HBase， 而 且 MapReduce 框 架 的 配置 也 会 影响 HBase。 如 果 你 的 使 用 场 
景 不 需要 在 HBase 表 上 执行 MapReduce 作 业 ， 你 可 以 安全 地 关闭 
MapReduce 框 架 ; 也 就 是 说 ， 停 止 JobTracker 和 TaskTracker 进 程 ， 这 会 
腾 出 更 多 资源 给 HBase 使 用 。 如 果 你 计划 使 用 HBase 表 作为 运行 
MapReduce 作业 的 数据 源 或 者 输出 存储 ， 请 把 每 个 节点 的 任务 数 调整 得 
比 标准 MapReduce 集 群 小 一 些 。 其 指导 思路 是 把 足够 的 资源 分 配给 
HBase。 在 运行 Map-Reduce 作 业 时 ， 减 少 了 分 配给 RegionServer 进 程 的 
堆 空间 ， 这 会 影响 HBase 的 性 能 。 


总 的 来 说 ， 不 建议 把 运行 MapReduce 作 业 的 工作 负载 和 需要 相对 低 
延迟 随机 读 写 的 工作 负载 混合 在 一 起 ， 这 样 会 让 它们 中 任何 一 个 都 不 能 
发 挥 出 好 的 性 能 。 如 果 在 HBase 上 运行 MapReduce 作 业 ， 随 机 读 写 的 性 
能 将 受 影响 ， 延 到 会 上 升 。 你 从 单个 HBase 实 例 中 得 到 的 总 吞吐 量 是 一 
个 利 量 。 你 最 终 会 停止 在 两 种 负载 中 共享 重 吐 量 。 还 有 ， 如 采 在 同一 个 
集群 上 混合 使 用 大 量 的 MapReduce 负 载 ， 那 么 稳定 地 运行 HBase 会 变 得 
相对 更 为 困难 。 此 时 ， 稳 定 运行 HBase 不 是 不 可 能 ， 但 是 需要 更 谨慎 地 
进行 资源 分 配 ( 如 RegionServer 的 堆 空 间 、 每 个 节点 的 任务 数 、 任 务 的 
堆 空间 每 ) ， 这 比 把 它们 分 开 部 蜀 的 情况 要 困难 得 多 。 

9.4.3 摊 乡 


在 大 多 数 运行 HBase 和 Hadoop 的 生产 系统 里 ， 都 是 用 Linux 作 底层 
操作 系统 。 除 了 打开 文件 数量 的 ulimit 参 数 外 ， 你 不 需要 做 太 多 优化 。 
HBase 是 一 个 数据 库 ， 它 需要 保持 文件 打开 ， 以 便 可 以 进行 读 写 操作 而 
不 用 承受 每 次 操作 打开 和 关闭 文件 的 开销 。 在 一 个 支撑 真实 负载 的 系统 
中 ， 你 可 能 很 快 触及 打开 文件 数量 的 限制 。 我 们 建议 你 调 高 这 个 限制 ， 
尤其 是 在 生产 部 普 的 时 候 。 你 不 需要 在 系统 范围 内 调 高 它 ， 只 要 针对 
DataNode 和 RegionServer 进 程 调 高 就 可 以 了 。 为 简单 起 见 ， 你 可 以 针对 
运行 这 些 进程 的 用 户 调 高 该 参数 。 

为 了 调 蜗 用 户 打 开 文 件数 量 的 限制 ， 针 对 将 运行 Hadoop 和 HBase 守 
护 进程 的 用 户 ， 请 把 下 面 的 内 容 写 到 /etc/security/limits.conf 文 件 里 。 
CDH 在 软件 包 安 装 过 程 已 经 为 你 做 好 了 这 些 设置 。 

















hadoopuser nofile 32768 
hbaseuser nofile 32768 
hadoopuser soft/hard nproc 32000 
hbaseuser soft/hard nproc 32000 


为 了 使 这 些 配置 生效 ， 你 需要 退出 ， 然 后 重新 登录 到 你 的 机 器 。 这 
些 配 置 参数 调 高 了 hadoopuser 和 hbaseuser 的 打开 文件 数 和 运行 进程 数 限 





制 |。 
另外 一 个 需要 优化 的 重要 的 配置 参数 是 交换 〈swap) 行为 。 在 
HBase RegionServer 上 发 生 交 换 是 致命 的 ， 即 使 没有 因为 ZooKeeper 超 时 
完全 停 挥 RegionServer 进 程 ， 也 会 显著 降低 性 能 。 最 理想 的 做 法 是 关闭 
RegionServer 节 点 上 的 交换 。 如 果 你 没有 那么 做 ， 可 以 使 用 内 核 可 调 参 
数 vm.swappiness (/proc/sys/vm/ swappiness) 来 定义 内 存 页 被 交换 到 便 

盘 的 频 度 。 个 值 越 大 ， 交 换 越 频 索 。 把 这 个 参数 调 到 0， 如 下 上 所 示 : 


$ sysctl -w vm.swappiness=0 


9.5 管理 守护 进程 





运营 一 个 HBase 生 产 部 团 会 遇 到 很 多 问题 ， 下 一 章 将 详细 讲解 。 让 
一 个 系统 运转 起 来 的 第 一 步 是 成 功 部 署 和 局 动 各 种 服务 。 到 现在 为 止 ， 
我 们 一 直 在 讨论 部 署 合 适 的 组 件 、 配 置 操 作 系 统 、 配 置 Hadoop、 配 置 
HBase。 现 在 所 有 这 些 都 完成 了 ， 你 可 以 启动 系统 ， 让 系统 准备 接收 一 
些 恋 写 请 求 。 你 安装 的 HBase 发 行 厂 本 预 装 了 用 于 局 动 和 停止 服务 的 脚 
本 。Apache 发 行 版 本 使 用 HBASE_HOME/bin/ 目 录 里 的 hbase-daemon.sh 
脚本 ， 而 CDH 预 装 的 是 init 脚 本 。 

在 集群 中 的 每 个 节点 上 需要 启动 相关 服务 。 因 为 在 安装 HBase 之 前 
你 已 经 安装 过 Hadoop， 你 可 能 已 经 有 了 启动 服务 的 体系 。 如 果 你 还 没 
有 : 这 里 有 一 些 这 择 。 

使 用 预 装 的 start 和 stop 脚 本 。Hadoop 和 HBase 预 装 的 start 和 stop 肢 
本 可 以 远程 登录 到 集群 中 的 所 有 机 器 上 启动 正确 的 进程 。 其 缺点 是 它们 
需要 无 密码 的 SSH 连 接 ， 由 于 安全 性 的 缘故 ， 一 些 IT 部 门 不 允许 这 人 么 
做 。 你 可 能 会 辩解 说 ， 你 可 以 在 每 次 使 用 脚本 登录 节点 局 动 /停止 进程 
时 输入 密码 。 当 然 可 以 ， 但 是 想 想 在 数 百 个 节点 上 为 了 启动 /停止 操作 
而 一 过 又 一 过 输入 密码 的 场景 。 甚 全 有 时 候 你 没有 账户 的 密码 一 一 你 只 
是 从 自己 的 账户 用 su 切换 过 去 的 。 这 种 情况 比 你 设想 的 更 为 常见 。 





























加 如 果 你 在 对 付 一 个 服务 嚣 集群， 集群 
SSH (http://sourceforge.net/projects/clusterssh)〉 是 个 有 用 的 工具 。 它 允许 
你 在 登录 单独 的 窗口 后 ， 在 集群 全 部 机 器 上 同时 执行 相同 的 Shell 命 令 。 
通过 同时 在 所 有 节点 上 执行 相同 的 命令 ， 你 可 以 在 所有 工作 市 点 上 启动 
守护 进程 。 这 很 简单 易 行 ， 但 这 在 管理 大 量 机 器 时 有 点 儿 和 危险 。 

四 自己 编写 脚本 总 是 一 种 选择 。 如 果 把 它们 和 Chef/Puppet 或 者 其 他 
你 喜欢 的 部 署 系统 结合 起 来 ， 你 可 以 把 脚本 放 到 每 台 主 机 上 来 局 动 合适 
的 服务 。 

加 使 用 像 Cloudera Manager 这 样 的 管理 软件 ， 它 支持 你 通过 一 个 
Web 用 户 界 面 管 理 集群 上 的 所 有 服务 。 

基本 的 思路 是 在 每 个 节点 上 启动 合适 的 守护 进程 。 你 可 以 使 用 
$HBASE_HOME/bin/hbase-daemon.sh 脚 本 在 某 一 个 节点 启动 一 个 HBase 
守护 进程 ， 如 下 所 示 : 
$HBASE HOME/bin/hbase-daemon .sh --config $HBASE HOME/conf/ start master 
SHBASE HOME/bin/hbase-daemon.sh --config $HBASE HOME/conf/ start regionserver 


$HBASE HOME/bin/hbase-daemon.sh --config $HBASE HOME/conf/ start master- 
backup 

















$HBASE HOME/bin/hbase-daemon.sh --config $HBASE HOME/conf/ stop master 
$HBASE HOME/bin/hbase-daemon.sh er $HBASE HOME/conf/ stop regionserver 
$HBASE HOME/bin/hbase-daemon.sh --config $HBASE HOME/conf/ stop master-backup 


并 不 是 所 有 守护 进程 在 每 个 地 方 都 需要 启动 。 正 如 我 们 在 本 章 前 面 
讨论 的 ， 它 们 需要 在 各 自 的 服务 器 上 局 动 。 

当 你 在 所 有 工作 节点 上 启动 了 RegionServer 进程 以 及 在 管理 节点 上 
启动 了 Master 进 程 后 ， 你 可 以 使 用 HBase Shell 或 者 HBase Master Web UI 
查看 系统 的 状态 。 一 个 用 户 界 面 的 示例 如 图 9-1 所 示 。 




















图 9-1 一 个 使 用 中 的 HBase 实 例 的 HBase Master UI 


9.6 小 结 


在 本 章 中 ， 我 们 介绍 了 为 生产 应 用 在 完全 分 布 式 环境 里 部 署 HBase 
的 各 个 方面 。 我 们 讨论 了 在 为 集群 选择 硬件 时 需要 考虑 的 因素 ， 包 括 是 
部 署 在 自己 的 硬件 上 还 是 部 署 在 云端 。 接 下 来 ， 我 们 讨论 了 各 种 发 行 版 
本 的 安装 和 配置 ， 最 后 讨论 了 集群 管理 。 

本 章 让 你 对 生产 环境 中 如 何 部 晋 HBase 有 了 准备 。 在 监控 HBase 
系统 方面 还 有 很 多 内 容 ， 下 一 章 将 介绍 这 部 分 内 容 。 
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本 章 涵 盖 的 内 容 

监控 和 监控 指标 

晶 性 能 测试 和 调 优 

四 常见 管理 和 运 维 任务 

加 备份 和 复制 策略 

你 已 经 学 习 了 很 多 ， 关 于 对 HBase 的 认 知 以 及 如 何 有 效 地 构建 应 用 
系统 等 基础 知识 ， 我 们 也 研究 了 如 何 部 普 完 全 分 布 式 的 HBase 集 群 、 选 
择 什么 样 的 硬件 、 各 种 分 布 式 部 署 选项 以 及 如 何 配置 集群 等 。 所 有 这 些 
知识 都 用 来 帮 你 把 应 用 系统 和 HBase 顺利 投入 到 生产 环境 。 但 是 还 有 最 
后 一 部 分 内 容 需 要 探讨 一 一 运 维 。 作 为 应 用 开发 人 员 ， 当 机 器 运行 在 生 
产 环境 时 ， 你 不 会 被 要 求 去 运 维 底层 的 HBase 集 群 。 然 而 ， 在 项 目 采 用 
HBase 的 初始 阶段 ， 很 可 能 你 会 在 运 维 工作 中 扮演 必 不 可 少 的 角色 ， 你 
需要 协助 运 维 团队 在 各 个 方面 尽快 成 功 运转 一 个 HBase 集 群生 产 环境 。 

运 维 是 一 个 广泛 的 话题 。 本 章 中 ， 我 们 的 目标 是 围绕 有 关 HBase 的 
基本 运 维 概念 进行 曾 释 。 这 能 够 让 你 成 功 地 运营 集群 ， 让 应 用 系统 为 最 
终 目 标 用 户 提供 服务 。 为 了 做 到 这 一 点 ， 我 们 首先 要 了 解 监控 和 监控 指 
标 这 两 个 与 HBase 有 关 的 概念 。 这 包括 监控 HBase 部 署 的 不 同方 法 和 需 
要 监控 的 监控 指标 。 

监控 是 一 个 重要 的 环节 ， 在 成 功 部 署 HBase 集群 后 ， 你 就 要 开始 考 
虑 测试 HBase 和 集群 和 应 用 系统 的 性 能 了 。 如 果 应 用 系统 不 能 文 撑 希望 使 
用 它 的 所 有 用 户 的 负载 ， 那 么 所 有 的 努力 并 且 把 它 投入 生产 运行 是 没有 
意义 的 。 接 下 来 ， 我 们 将 讨论 在 运营 集群 的 过 程 中 需要 考虑 的 常见 管理 
和 运 维 任务 。 这 些 任务 包括 局 动 和 停止 服务 、 升 级 、 检 测 和 修复 数据 不 


























一 致 情况 等 。 本 章 的 最 后 一 个 主题 涉及 HBase 集 群 的 备份 与 复制 。 在 灾 
难 来 歼 时 ， 这 对 于 保证 业务 连续 性 的 目标 来 说 是 至 关 重 要 的 。 

注意 本 章 涵盖 的 主题 是 关于 0.92 版 本 的 。 在 未 来 的 版 本 中 一 些 推 
荐 建议 可 能 会 发 生变 化 ， 如 果 你 在 使 用 更 新 的 版 本 ， 我 们 鼓励 你 深入 检 
查 这 些 建议 。 

事 不 宜 迟 ， 让 我 们 开始 行动 。 








10.1 监控 你 





任何 生产 系统 的 一 个 关键 点 就 是 运 维 人 员 监 控 其 状态 和 表现 的 能 
力 。 当 问题 发 生 时 ， 运 维 人 员 最 不 布 望 做 的 事情 束 是 科 得 数 GB 或 TB 
的 日 志 来 搞 清 楚 系 统 的 状态 和 问题 的 根源 。 没 有 人 愿意 为 搞 清 楚 及 生 了 
什么 情况 而 去 阅读 跨 多 全 服务 器 的 成 二 上 万 行 日 志 记 录 。 这 种 情况 下 ， 
你 记录 的 详细 监控 指标 就 开始 及 挥 作 用 。 在 一 个 像 HBase 这 样 达 到 生产 
品质 的 数据 库 里 发 生 痢 很 多 事情 ， 每 件 事情 都 可 以 用 不 同 的 方法 进行 测 
量 。 这 些 测量 结果 被 系统 输出 出 来 ， 可 以 被 用 来 记录 它们 的 外 部 框 染 所 
捕获 ， 然 后 提供 给 运 维 人 人员 使 用 。 

注意 由 于 涉及 许多 组 件 ， 无 论 融 构成 系统 的 不 同 组 件 还 是 就 运营 
规模 而 言 ， 在 分 布 式 系统 中 运 维 是 尤其 困难 的 。 

收集 监控 指标 和 图 形 显示 的 功能 并 不 是 HBase 独 有 的 ， 在 任何 一 个 
成 功 的 系统 中 都 可 以 找到 这 样 的 功能 ， 无 论 其 规模 大 小 。 但 是 不 同 的 系 
统 实现 的 方式 有 所 不 同 。 本 节 中 ， 我 们 将 讨论 HBase 如 何 输出 这 些 监控 
指标 ， 以 及 用 来 捕获 这 些 监控 指标 和 透 过 这 些 监 控 指 标 了 解 集群 性 能 
ee 人 ， 以 及 如 何 使 

这 些 监控 指标 在 问题 发 生 时 发 出 警 

提示 我 们 建议 ， 其 到 在 末 用 HBase 的 原型 价 段 就 应 访 起 完整 的 
监控 指标 收集 、 图 形 显 示 和 监控 体系 。 这 可 以 帮助 你 熟悉 运营 HBase 的 



































各 个 方面 ， 并 且 有 利于 更 顺畅 地 过 渡 到 生产 环境 。 此 外 ， 当 系统 接受 访 
问 请 求 时 ， 能 够 看 到 表示 这 些 请 求 的 漂亮 的 图 形 也 是 一 件 有 趣 的 事情 。 

因为 你 会 更 加 了 解 在 应 用 与 HBase 交互 时 确 层 系统 都 发 生 了 什么 ， 所 以 
这 在 应 用 系统 的 开发 进程 中 也 会 有 所 帮助 。 





这 种 监控 指标 框架 是 HBase 依赖 于 Hadoop 的 另 一 个 体现 。HBase 
与 Hadoop 紧 密 结 合 在 一 起 ，HBase 使 用 Hadoop 的 底层 监控 指标 框架 来 
输出 自己 的 监控 指标 信息 。 在 编写 本 书 的 时 候 ，HBase 还 在 使 用 监控 指 
标 框 架 v1 (metrics framework v1) 是 。 让 HBase 使 用 更 新 、 更 好 的 监控 
指标 框架 版 本 的 工作 正在 进行 中 龟 ， 但 还 没有 完成 。 

除非 你 想 涉 足 这 些 框架 的 开发 ， 否 则 没有 必要 去 深究 监控 指标 框架 
的 具体 实现 方法 。 如 果 你 的 目标 是 框架 开发 的 话 ， 请 你 务必 深入 了 解 那 
些 代 码 ， 但 如 果 你 只 是 对 在 你 的 应 用 系统 中 使 用 HBase 监 控 指 标 感 兴 
趣 ， 你 只 需要 知道 如 何 配 置 框架 和 输出 监控 指标 的 方法 即 可 ， 这 束 是 我 
们 接 下 来 要 讨论 的 内 容 。 

这 种 监控 指标 框架 的 工作 方式 是 基于 对 MetricsContext 接 口 的 context 
实现 来 输出 监控 指标 信息 。 你 可 以 使 用 的 两 个 预 装 的 实现 是 : Ganglia 
context 和 File context。 除 了 这 两 个 context 实 现 之 外 ，HBase 还 可 以 使 用 
Java Management Extensions (JMX) 四 来 输出 监控 指标 。 

















10.1.2 监控 指标 和 网 形 展 示 


监控 指标 框架 涉及 两 部 分 功能 一 一 收集 〈collection) 和 图 形 展示 
Cgraphing) 。 通 常 这 两 部 分 功能 都 被 内 置 在 同一 个 框 染 下 ， 但 这 并 不 
是 必需 的 。 收 集 功 能 用 来 收集 被 监控 的 系统 产生 的 监控 指标 信息 ， 并 将 
这 些 监控 指标 信息 高 效 存 储 起 来 ， 以 便 将 来 可 以 使 用 。 这 部 分 功能 也 会 
按照 日 、 月 或 年 为 单位 执行 汇总 的 工作 。 大 多 数 情况 下 ， 超 过 一 年 的 细 








粒度 监控 指标 数据 和 同一 个 监控 指标 的 年 度 汇 总 数据 一 样 没有 什么 用 
处 。 





图 形 展 示 功 能 使 用 收集 框架 捕获 和 存储 的 数据 ， 以 图 形 和 漂亮 图 三 
的 形式 将 其 展示 出 来 ， 方 便 最 终 用 户 得 看 。 运 维 人 员 碍 看 这 些 图 形 ， 可 
以 快速 洞察 系统 的 状态 。 通 过 在 图 形 上 设置 闹 值 ， 你 可 以 轻松 了 解 系统 
是 否 运行 在 预期 范围 里 。 根 据 这 些 图 形 ， 当 墨 菲 定律 问 生 效 时 (可 能 
超过 国 值 的 监控 指标 一 定 会 超过 国 值 ) 你 可 以 采取 措施 以 免 最 终 应 用 受 
到 影响 。 

现在 有 很 多 种 收集 和 图 形 展示 工具 可 以 使 用 ， 但 并 不 是 所 有 的 工具 
都 能 够 紧密 集成 Hadoop 和 HBase 输出 监控 指标 的 方式 。 你 的 选择 被 限 
定 在 Ganglia〈 原 生 文 持 Hadoop 的 监控 指标 框架 ) 或 者 一 些 通 过 JMX 收 
集 监 控 指 标 信 息 的 框架 。 

1. Ganglia 














Ganglia (http://ganglia.sourceforge.net/〉 电 是 一 种 被 设计 用 来 监控 
集群 的 分 布 式 监控 框架 。 它 是 在 加 州 大 学 伯克利 分 校 开 发 的 开源 项 目 。 
Hadoop 和 HBase 社 区 一 直 使 用 它 作 为 监控 集群 的 业界 标准 方案 。 

为 了 配置 HBase 把 监控 指标 信息 输出 到 Ganglia， 需 要 设置 
$HBASE_HOME/conf/ 目 录 下 的 hadoop-metrics.properties 文件 中 的 参 
数 。 需 要 配置 的 内 容 取 决 于 使 用 的 Ganglia 版 本 。 对 于 3.1 以 前 的 版 本 ， 
应 该 使 用 GangliaContext， 而 3.1 及 以 后 的 版 本 ， 应 该 使 用 
GangliaContext31。 对 于 Ganglia 3.1 及 以 后 的 版 本 ， 我 们 配置 hadoop- 
metrics. properties 文 件 如 下 : 


hbase.class=org.apache.hadoop.metrics.ganglia.GangliaContext31 
hbase .period=10 

hbase.servers=GMETADHOST IP:PORT 
jvm.class=org.apache.hadoop.metrics.ganglia.GangliaContext31 
jvm.period=10 

jvm.servers=GMETADHOST IP:PORT 
rpc.class=org.apache.hadoop.metrics.ganglia.GangliaContext31 
rpc.period=10 

rpc.servers=GMETADHOST IP:PORT 


当 你 完成 Ganglia 的 安装 和 配置 ， 并 且 使 用 这 些 配 置 属性 启动 HBase 
守护 进程 后 ， Ganglia 的 监控 指标 列表 会 显示 HBase 输 出 的 监控 指标 信 
息 ， 如 图 10-1 所 示 。 
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图 10-1 设置 用 Ganglia 收 集 HBase 的 监控 指标 信息 。 注 意 下 拉 监 控 指 
标 列 表 中 的 HBase 和 JVM 监 控 指 标 列 表 








2. JMX 

除了 使 用 Hadoop 监 控 指 标 框架 输出 监控 指标 信息 之 外 ，HBase 也 可 
以 通过 人 指标 信息 。 一 些 开 源 工 具 ， 如 Cacti 和 OpenTSDB， 
可 以 通过 JMX 收 集 监 控 指 标 信息 。JMX 监 控 指 标 信息 也 可 以 透 过 Master 


和 RegionServer 的 Web 用 户 界 面 以 JSON 格 式 查 看 。 

国 Master 的 JMX 监控 指标 信息 : http://master_ip_address:port/jmx。 

四 某 个 特定 RegionServer 的 JMX 监控 指标 信息 : 
http://region_server_ip _address:port/jmx.。 

Master 的 默认 端口 是 60010，RegionServer 的 默认 端口 是 60030。 

8. 基于 文件 

HBase 还 可 以 被 配置 为 把 监控 指标 信息 输出 到 平面 文件 里 。 监 控 指 
标 信 息 上 自动 添加 到 文件 末尾 。 基 于 context 实现 的 不 同 ， 添 加 的 监控 指 
标 信 息 可 以 带 或 者 不 珊 时 间 惟 。 因 为 基于 文件 的 监控 指标 信息 以 后 难以 
使 用 ， 所 以 这 不 是 一 种 令 人 满意 的 记录 监控 指标 的 方法 。 虽 然 我 们 没有 
遇 到 过 把 监控 指标 信息 记录 到 文件 里 进行 动态 监控 的 产品 ， 但 这 仍然 是 
记录 监控 指标 信息 供 将 来 分 析 的 一 种 选择 。 

要 把 监控 指标 信息 记录 到 文件 里 ，hadoop-metrics.properties 文件 的 
配置 内 容 如 下 : 


hbase.class=org.apache.hadoop.hbase.metrics.file.TimeStampingFileContext 
hbase .period=10 

hbase.fileName=/tmp/metrics hbase.1og 
jvm.class=org.apache.hadoop.hbase.metrics.file.TimeStampingFileContext 
jvm.period=10 

jvm.fileName=/tmp/metrics jvm.log 
rpc.class=org.apache.hadoop.hbase.metrics.file.TimeStampingFileContext 
rpc.period=10 

rpc.fileName=/tmp/metrics rpc.log 


让 我 们 看 看 HBase 输 出 的 这 些 监控 指标 ， 你 可 以 通过 筷 们 来 洞 罕 集 
群 的 健康 状况 和 性 能 。 











10.1.3 HBase 输 出 的 监控 指标 


Master 和 RegionServer 可 以 输出 监控 指标 信息 。 你 不 需要 为 了 理解 
这 些 监控 指标 而 研究 HBase 的 代码 ， 但 是 如 果 你 有 很 强 的 求知 欲 ， 想 知 
道 如 何 生 成 这 些 监控 指标 信息 以 及 监控 指标 框架 的 内 部 工作 原理 的 话 ， 
我 们 勤 励 你 去 阅读 代码 。 亲 上 自 研 究 源 代码 永远 没有 坏处 。 


什么 监控 指标 让 人 感 兴趣 呢 ?” 这 取决 于 集群 支撑 的 工作 负载 ， 我 们 
将 对 这 些 监控 指标 进行 相应 分 类 。 首 先 我 们 研究 跟 集群 工作 负载 类 型 无 
关 的 通用 监控 指标 ， 然 后 我 们 会 分 别 研究 与 读 写 操作 有 关 的 监控 指标 。 

1. 通用 监控 指标 

无 论 运行 任何 类 型 的 工作 负载 ， 系 统 负载 、 网 络 统计 信息 、RPC、 
活着 的 region、JVM 推 和 JVM 线 程 等 相关 监控 指标 都 是 让 人 感 兴 趣 的 ， 
它们 可 以 用 来 解释 系统 的 表现 。Master 的 用 户 界面 展示 了 JVM 堆 的 使 
用 情况 以 及 RegionServer 服务 的 每 秒 请 求 数 〈 参 见 网 10-2) 。 


Region Servers 














Wed Jul 04 i ee 6 UTC 2012| jrequestsPerSecond=2161, m 二 usedHeapMB=1529, ET 


78826720jW， 
Wed Jul 04 05:13:46 UTC 2012) i i i 二 二 
6 Es Jul 04 05:13:46 UTC 2012 jrequestsPerSecond=2667, nmumberOfOnlineRegions=36, usedHeapMB=1012, maxHeapMB= 194| 


|requestsPerSecond=18745, numberOfOnlineRegions=232 


图 10-2 HBase Master 的 Web 用 户 界 面 展示 了 每 个 RegionServer 服 务 
的 每 秒 请 求 数 、RegionServer 上 在 线 的 region 数 量 以 及 使 用 过 的 最 大 的 
堆 。 当 你 要 查看 系统 状态 时 ， 这 是 一 个 有 用 的 开始 。 当 一 些 
RegionServer 停 止 服务 ， 从 它们 服务 的 region 和 服务 请 求 来 看 
RegionServer 的 负载 分 配 不 够 均衡 的 时 候 ， 或 者 RegionServer 被 错误 配置 
以 致使 用 的 堆 太 少 的 时 候 ， 你 经 常 可 以 在 这 里 发 现 问题 所 在 
不 仅 HBase 的 监控 指标 很 重要 ， 来 目 文 撑 系 统 〈 如 HDFS、 底 层 
0OS、 硬 件 和 网 络 等 的 监控 指标 也 很 重要 ) 。HBase 系 统 表现 失常 的 根源 
经 常 在 于 文 撑 系统 的 运行 表现 。 文 撑 系 统 层面 的 问题 通常 会 导致 整个 体 
系 其 他 部 分 产生 连锁 反应 ， 最 终 以 影响 到 客户 端 而 告终 。 由 于 文 撑 系统 
不 可 预期 的 表现 ， 客 户 端 要 么 不 能 正常 工作 要 么 失败 。HBase 这 样 的 分 
布 式 系统 拥有 更 多 可 能 发 生 故 障 的 部 件 和 依靠 更 多 支撑 系统 ， 这 个 问题 
更 加 明显 。 对 于 监控 指标 细节 和 对 于 所 有 文 撑 系 统 的 监控 的 研究 超出 了 


本 书 的 范围 ， 但 是 你 可 以 找到 充足 的 资源 来 研究 这 些 方面 Dol. 











介 无 疑问 ， 需 要 监控 的 重要 内 容 有 如 下 几 项 。 

四 HDFS 吞吐 量 和 延迟 。 

四 HDFS 使 用 情况 。 

晶 存储 人 硬盘 的 吞吐 量 。 

罩 每 个 节点 的 网 络 吞 吐 量 和 延迟 。 

系统 和 网 络 层 面 的 信息 可 以 透 过 Ganglia (参见 图 10-3) 和 一 些 
Linux 工 具 (如 ]sof、top、iostat、netstat 等 ) 来 查看 。 如 果 你 在 管理 
HBase， 这 些 都 是 需要 学 会 的 好 用 的 工具 。 

一 个 值得 关注 的 有 趣 的 监控 指标 是 CPU IO wait 百 分 比 。 这 个 监控 
指标 表示 CPU 在 等 待 硬盘 IO 上 面 所 花费 的 时 间 ， 这 是 一 个 很 好 的 判断 系 
统 是 否 存在 IO 瓶颈 的 标志 。 如 果 系 统 存 在 IO 瓶 颈 ， 几 乎 所 有 情况 下 你 都 
需要 增加 人 硬盘。 在 Ganglia 里 ， 一 个 运行 写 密集 型 工作 负载 的 集群 的 CPU 
IO wait 百分比 的 图 形 如 图 10-4 所 示 。 当 读 IO 很 高 时 ， 这 个 监控 指标 也 
是 有 用 的 。 
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图 10-3 Ganglia 图 形 显 示 了 整个 集群 的 总 体 情况 ， 包 括 负载 、CPU、 
内 存 和 网 络 等 监控 指标 
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图 10-4 CPU IO wait 百 分 比 是 一 个 有 用 的 监控 指标 ， 可 以 用 来 观 内 
系统 的 硬盘 IO 是 否 是 瓶颈 所 在 。 这 些 Ganglia 图 形 显 示 在 6 台 机 器 中 有 5 
台 机 器 有 值得 注意 的 IO 压力 。 这 是 一 个 写 密 集 型 工作 负载 的 表现 。 在 这 

些 机 器 上 增加 更 多 硬盘 可 以 通过 分 散 IO 压 力 来 提升 写 性 能 

我 们 已 经 讨论 了 在 运行 集群 中 需要 关注 的 一 些 通 用 监控 指标 。 现 在 
我 们 将 研究 与 读 有 关 的 和 与 写 有 关 的 监控 指标 。 

2. 与 写 有 关 的 监控 指标 

为 了 了 解 写 过 程 中 的 系统 状态 ， 需 要 关注 在 数据 写 入 系统 时 收集 的 
监控 指标 。 它 们 是 与 MemStore、 刷 写 、 合 并 、 垃 圾 回收 和 HDFS IO 有 
关 的 监控 指标 。 

在 写 过 程 中 ， 理 想 的 MemStore 监 控 指 标 图 形 看 起 来 应 该 是 锯齿 
状 。 这 表明 MemStore 平 滑 的 刷 写 过 程 以 及 预料 之 中 的 垃圾 回收 开销 。 
在 Ganglia 里 ， 一 个 处 理 写 密集 型 负载 的 MemStore 大 小 监控 指标 如 图 10- 
5 所 示 。 
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图 10-5 在 Ganglia 里 的 MemStore 大 小 监控 指标 。 这 不 是 一 个 理想 图 
形 : 它 表 明 对 垃圾 回收 和 其 他 HBase 的 配置 进行 优化 可 能 会 改善 性 能 


要 了 解 HDFS 写 延 迟 ，fsWriteLatency 和 fsSyncLatency 监控 指标 是 
有 用 的 。 写 延迟 监控 指标 包括 写 HFile 延迟 和 写 WAL 延迟 。 同 步 延 迟 
监控 指标 只 针对 WAL。 


写 延 迟 上 升 通常 也 会 导致 合并 队列 变 长 《参见 图 10-6) 。 
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图 10- 6 在 写 密集 型 负载 时 合并 队列 变 长 。 注意 ， 一 部 分 } 主 机 上 的 合 
并 队列 比 其 他 主机 的 长 。 这 可 能 表明 这 些 RegionServer 上 的 写 压 力 比 其 
I 
垃圾 回收 监控 指标 由 JVM 通 过 监控 指标 context 输 出 ， 你 可 以 在 
Ganglia 里 找到 它们 ， 通 常 以 jvm.metrics.gc* 作 为 名 字 。 查 看 垃圾 回收 时 








发 生 什 么 情况 的 另 一 个 有 用 的 方法 是 ， 在 RegionServer 的 Java 属性 里 
(在 hbase-env.sh 文件 里 ) 放 入 -XIloggc:/my/logs/directory/hbase- 
regionserver-gc.log 标记 来 打开 垃圾 回收 日 志 。 在 写 密集 型 负载 情况 下 处 
理 没 有 啊 应 的 RegionServer 进 程 时 ， 这 可 以 得 到 有 帮助 的 信息 。 这 种 情 
况 的 一 个 常见 原因 是 垃圾 回收 暂停 时 间 太 长 了 ， 这 通常 意味 着 垃圾 回收 
没有 被 正确 优化 。 
3. 与 读 有 关 的 监控 指标 
读 过 程 和 写 过 程 是 不 同 的 ， 所 以 应 该 监控 的 监控 指标 也 是 不 同 的 。 
在 读 过 程 中 ， 除 了 我 们 开始 时 候 研 究 过 的 通用 监控 指标 之 外 ， 需 要 关注 
的 监控 指标 主要 是 与 BlockCache 有 关 。 有 关 缓 存 命中 率 、 驱 逐 
Ceviction) 、 绥 存 大 小 等 BlockCache 监 控 指 标 在 了 解读 性 能 时 是 有 帮助 
的 ， 你 可 以 相应 优化 缓存 和 表 属 性 。 图 10-7 显示 了 在 读 密 集 型 负载 时 的 
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图 10-7 在 读 密 集 型 负载 时 捕获 的 BlockCache 大 小 监控 指 标 。 该 监控 

虽 标 表明 读 压 力 太 大 了 ， 并 且 使 一 个 RegionServer 下 线 了 《就 是 左上 角 

的 机 器 ) 。 如 果 发 生 这 种 情况 ， 应 该 设置 运 维系 统 来 提醒 你 。 如 果 只 是 

一 台 机 器 下 线 ， 还 没有 严重 到 在 半夜 呼叫 你 的 程度 。 但 是 如 果 多 人 台 机 器 
下 线 ， 你 就 床 烦 了 


10.1.4 应 用 端 监 控 


监控 HBase 的 工具 可 能 展示 给 你 表现 良好 的 图 形 ， 系 统 层面 的 一 切 
稳定 运行 。 但 是 这 不 意味 着 整个 应 用 系统 运行 良好 。 在 一 个 生产 环境 
中 ， 我 们 建议 你 在 使 用 Ganglia 和 其 他 工具 提供 的 系统 层面 的 监控 之 外 ， 
还 要 从 应 用 的 视角 监控 HBase 的 表现 。 这 种 应 用 问 监 控 可 能 是 根据 应 用 
系统 使 用 HBase 的 方式 定制 实现 的 一 种 东西 。HBase 社 区 还 没有 为 此 提 
供 模 板 ， 但 是 将 来 可 能 会 有 变化 。 你 也 可 以 发 挥 主动 性 ， 为 此 做 出 贡 
献 。 

从 应 用 视角 监控 HBase 时 ， 下 面 的 内 容 是 有 帮助 的 。 

加 从 客户 端 〈 应 用 ) 观察 的 每 个 RegionServer 的 Put 性 能 

四 从 客户 端 观察 的 每 个 RegionServer 的 Get 性 能 。 

四 从 客户 端 观察 的 每 个 RegionServer 的 Scan 性 能 

加 到 达 所 有 RegionServer 的 连通 性 。 

加 必用 层 和 HBase 集群 之 间 的 网 络 延 迟 。 











和 是 在 任何 时 间 点 连接 到 HBase 的 并 发 客户 端 数量 。 

国 对 | 达 ZooKeeper 的 连通 性 。 

得 看 这 些 监控 指标 可 以 让 你 了 解 应 用 端的 HBase 表现 ， 你 可 以 把 这 
些 监控 指标 和 HBase 层 面 的 监控 指标 联系 起 来 ， 以 便 更 好 地 了 解 应 用 系 
统 的 表现 。 这 是 一 个 需要 你 和 系统 管理 员 以 及 运 维 团队 携手 工作 的 解决 
方案 。 长 期 来 看 ， 在 这 个 方面 投入 时 间 和 精力 ， 在 生产 环境 中 运营 应 用 
系统 时 你 会 受益 的 。 





10.2 HBase 和 集群 的 性 能 


任何 数据 库 的 性 能 都 是 根据 所 文 持 操作 的 啊 应 时 间 来 衡量 的 。 为 了 
给 用 户 设置 合理 的 期 望 值 ， 在 应 用 环境 里 的 性 能 测量 是 很 重要 的 。 例 
如 ， 由 HBase 集群 支撑 的 应 用 系统 的 用 户 在 点 击 一 个 按钮 时 不 应 该 为 了 
吧 应 等 待 数 十 秒 。 理 想 情 况 下 ， 它 应 该 在 坚 秒 级 完成 。 当 然 ， 这 不 是 一 
个 通用 规则 ， 很 大 程度 上 取决 于 用 户 使 用 的 交互 类 型 。 

为 了 确保 HBase 集群 运行 在 期 望 的 SLA 里 ， 你 必须 全 面 测 试 其 性 
能 ， 并 且 优 化 集群 发 挥 你 能 得 到 的 最 佳 性 能 。 本 节 会 研究 测试 集群 性 能 
的 各 种 方法 ， 然 后 会 研究 影响 性 能 的 因素 。 随 后 ， 我 们 会 研究 各 种 可 用 
的 优化 系统 的 技巧 。 





10.2.1 性 能 测试 


你 可 以 使 用 一 些 不 同 的 方法 来 测试 HBase 集群 的 性 能 。 最 好 的 方法 
是 模拟 运行 应 用 系统 在 生产 环境 里 可 能 使 用 的 真实 的 工作 负载 。 但 是 ， 
如 果 不 局 动 一 个 beta 版 让 选择 过 的 用 户 进 行 访问 ， 你 不 一 定 能 模拟 真实 
负载 来 测试 集群 的 性 能 。 理 想 情 况 下 ， 在 此 之 前 你 需要 运行 茶 种 性 能 水 
平 测试 ， 以 便 对 性 能 建立 某 种 程度 的 信心 。 

注意 在 测试 集群 性 能 之 前 ， 如 果 可 以 建立 好 监控 框架 是 大 有 帮助 








的 。 请 安装 监控 框架 ! 有 了 它 你 会 比 没有 它 更 加 深入 地 了 解 系统 的 表 
现 。 

1. 随 HBase 预 装 的 性 能 评估 工具 

HBase 自 带 一 个 叫做 PerformanceEvaluation 的 工具 ， 你 可 以 使 用 它 从 
各 种 操作 的 角度 评估 HBase 集群 的 性 能 。 这 个 工具 源 于 在 Google 的 Big 
Table 论文 里 介绍 的 性 能 评估 工具 。 为 了 了 解 该 工具 的 使 用 细节 ， 你 可 
以 不 帝 任 何 参 数 执行 它 : 


$ $HBASE HOME/bin/hbase org.apache.hadoop.hbase.PerformanceEvaluation 


Usage: java org.apache.hadoop.hbase.PerformanceEvaluation \ 


[--miniCluster] [--nomapred] [--rows=ROWS] <command> <nclients> 
Options: 
miniCluster Run the test on an HBaseMiniCluster 
nomapred Run multiple clients using threads 
(rather than use mapreduce) 
rows Rows each client runs. Default: One million 
flushCommits Used to determine if the test should 
flush the table. Default: false 

writeToWwAL Set writeToWAL on puts. Default: True 
Command: 

filterScan Run scan test using a filter to find 


a specific row based on its value 
(make sure to use --rows=20) 


randomRead Run random read test 
randomSeekScan Run random seek and scan 100 test 


randomWrite Run random write test 

scan Run scan test (read every row) 

ScanRange10 Run random Seek Scan with both start 
and stop row (max 10 rows) 

scanRange100 Run random seek scan with both start 


and stop row (max 100 rows) 
scanRange1000 Run random seek scan with both start 

and stop row (max 1000 rows) 
ScanRange10000 Run random seek Scan with both start 

and stop row (max 10000 rows) 
sequentialRead Run sequential read test 
sequentialWrite Run sequential write test 


Args: 
nclients Integer. Required. Total number 
of clients (and HRegionServers) 
running: 1 <= value <= 500 
Examples: 


To run a single evaluation client: 
$ bin/hbase org.apache.hadoop.hbase.PerformanceEvaluation sequentialWrite 1 


如 同 你 从 使 用 细节 里 看 到 的 ， 你 可 以 使 用 该 工具 执行 各 种 测试 。 除 
非 你 把 客户 端 数 量 设 置 为 1〈 此 时 它们 会 以 单线 程 客户 端 形 式 运行 ) ， 
否则 和 它们 都 会 以 MapReduce 作 业 形 式 运 行 。 你 可 以 设置 每 个 客户 端 读 写 
行 的 数量 和 客户 端的 数量 。 先 执行 sequentialWrite 或 者 randomWrite 命 
令 ， 以 便 它 们 创建 一 张 表 并 且 写 入 一 些 数 据 。 随 后 这 张 表 和 数据 被 用 来 
执行 读 测试 ， 如 randomRead、scan、 和 sequentialRead。 该 工具 不 需要 
你 手工 创建 表 ， 当 你 运行 命令 往 HBase 写 入 数据 时 ， 它 会 自行 创建 。 

如 果 你 只 关心 随机 读 写 的 性 能 表现 ， 你 可 以 从 集群 外 部 任何 地 方 运 
行 这 个 工具 ， 只 要 那些 地 方 有 HBase JAR 包 和 配置 信息 就 可 以 运行 。 
MapReduce 作业 可 以 从 安装 MapReduce 框 架 的 任何 地 方 运行 ， 理 想 情 况 
下 MapReduce 框 架 不 应 该 和 HBase 集 群 并 行 部 署 在 一 起 〈 我 们 之 前 讨论 
过 这 个 问题 ) 。 

运行 该 工具 的 一 个 例子 如 下 所 示 : 








$ hbase org.apache .hadqoop .hbase.PerformanceEvaluation --rows=10 
sequentialWrite 1 

12/06/18 15:59:29 WARN conf .Configuration: hadoop.native.lib is deprecated. 
Instead, use io.native.lib.available 

12/06/18 15:59:29 INFO zookeeper.ZooKeeper: Client 
environment :Zookeeper.version=3.4.3-cdh4.0.0--1, built on 06/04/2012 
23:16 GMT 


12/06/18 15:59:29 INFO hbase.PerformanceEvaluation: 0/9/10 
12/06/18 15:59:29 INFO hbase.PerformanceEvaluation: Finished class 
org.apache.hadoop.hbase.PerformanceEvaluation$SequentialWriteTest 
in 14ms at offset 0 for 10 rows 


这 次 运行 使 用 单个 线程 顺序 号 入 了 10 行 数据 ， 为 此 花 了 14 坚 秒 。 

这 个 测试 工具 的 局 限 性 在 于 ， 如 采 你 不 能 自己 编写 代码 就 不 能 运行 
混合 的 工作 负载 。 这 种 测试 必须 是 预 装 测试 中 的 一 种 ， 并 且 它 们 必须 分 
开 单 独 执行 。 如 有 末 你 的 工作 负载 包含 同时 发 生 的 Scan、Get 和 Put， 这 个 
工具 不 能 把 这 些 操作 混合 在 一 起 让 你 真实 测试 集群 。 这 个 问题 把 我 们 带 
到 下 一 个 测试 实用 工具 。 

2. YCSB 一 一 Yahool! 云 服务 性 能 基准 中 

在 第 1 半 ， 我 们 谈 到 各 个 公司 为 了 解决 它们 的 数据 管理 问题 而 开发 
的 NoSQL 系统 。 这 导致 了 关于 谁 比 谁 更 优秀 的 激烈 的 争论 和 比赛 。 虽 
然 看 起 来 很 有 趣 ， 但 是 当 比 较 不 同系 统 的 性 能 时 ， 这 也 使 事情 变 得 模糊 
不 清 。 因 为 这 些 系 统 为 不 同 的 使 用 场景 而 设计 并 且 做 了 不 同 的 取舍 ， 一 
般 而 言 这 种 比较 十 分 困难 。 但 是 我 们 需要 一 种 比较 它们 的 标准 方式 ， 现 
在 仍然 缺少 这 种 行业 比较 标准 。 

Yahool! 投 资 研究 了 一 种 用 来 比较 不 同 数据 库 的 标准 性 能 测试 工具 。 
这 个 组 织 叫 做 Yahoo! 云 服务 性 能 基准 〈Yahoo! Cloud Serving 
Benchmark) 。YCSB 是 一 种 最 接近 行业 标准 的 用 来 测量 和 比较 不 同 分 
布 式 数据 库 性 能 的 基准 工具 。 虽 然 YCSB 被 设立 用 来 比较 系统 性 能 ， 但 
是 你 也 可 以 用 它 来 测试 它 所 支持 的 数据 库 的 性 能 ， 包 括 HBase。YCSB 
包括 YCSB 客 户 端 〈 这 是 一 种 扩展 的 工作 负载 生成 器 ) 和 核心 工作 负载 














(一 组 预先 打包 的 、 可 以 由 YCSB 客 户 端 生成 的 工作 负载 〉。 
YCSB 可 以 从 该 项 目的 GitHub 获得 (http://github.com/ 
brianfrankcooper/YYCSB/) 。 你 必须 使 用 Maven 编 译 它 。 
开始 行动 ， 先 复制 Git 资 源 库 : 
$ git clone git://github.com/brianfrankcooper/YCSB.git 
Clonme Tnto TCSB.. 。 


Resolving deltas: 100% (906/906), done. 
复制 结束 后 ， 编 译 代码 : 
S$ Cd YCSB 
$ mvn -DskipTests package 
YCSB 编 译 结束 后 ， 把 集群 的 配置 信息 写 入 
hbase/src/main/conf/hbase-site.xml。 你 只 需要 把 hbase.zookeeper.quorum 属 
性 写 入 配置 文件 ， 以 便 YCSB 使 用 它 找 到 集群 的 入 口 。 现 在 你 已 经 准备 
好 运行 工作 负载 来 测试 集群 了 。YCSB 附 带 了 一 些 工作 负载 示例 ， 你 可 
以 在 workloads 目 录 下 找到 它们 。 我 们 在 本 例 中 使 用 其 中 的 一 个 ， 但 是 你 
可 以 针对 集群 的 测试 内 容 创建 自己 的 工作 负载 。 在 运行 工作 负载 之 前 ， 


你 必须 创建 YCSB 写 入 的 HBase 表 。 你 可 以 从 Shell 里 创建 表 : 
hbase (main) :002:0> create 'mytable', 'myfamily'! 


创建 表 以 后 ， 准 备 开 始 测试 集群 : 
$ bin/ycsb load hbase -P workloads/workloada -p columnfamily=myfamily \ 
-p table=mytable 


你 可 以 以 各 种 花样 使 用 YCSB 工 作 负载 ， 包 括 设置 多 客户 端 、 设 置 
多 线程 和 采用 不 同 数 据 统计 分 布 运行 混合 的 工作 负载 。 

现在 你 掌握 了 几 种 方法 来 测试 HBase 集 群 的 性 能 ， 在 集群 投入 生产 
环境 之 前 你 可 能 会 运行 这 种 测试 。 在 一 些 地 方 你 可 以 提升 集群 的 性 能 。 
为 了 了 解 这 一 点 ， 重 要 的 是 你 需要 熟悉 影响 HBase 性 能 的 各 种 因素 。 














HBase 是 一 种 分 布 式 数据 库 ， 与 Hadoop 紧 密 结合 在 一 起 。 当 谈 到 性 
能 的 时 候 ， 这 使 得 HBase 很 容易 受到 文 撑 它 的 整个 体系 《参见 图 10-8) 
的 影响 。 
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图 10-8 HBase 和 它 的 支撑 系统 。 每 种 文 撑 系 统 都 会 影响 HBase 的 性 
能 

从 构成 集群 机 器 的 底层 硬件 到 把 硬件 和 操作 系统 〈 尤 其 是 文件 系 
统 ) 、JVM、HDFS 连 接 起 来 的 网 络 之 间 的 所 有 东西 都 会 影响 到 HBase 
的 性 能 。HBase 系统 的 状态 也 会 影响 到 HBase 的 性 能 。 例 如 ， 在 集群 中 
执行 合并 的 时 候 或 者 MemStore 刷 写 的 时 候 与 什么 都 没有 做 的 时 候 相 
比 ， 性 能 表现 是 不 同 的 。 应 用 系统 的 性 能 还 取决 于 它 和 HBase 的 交互 方 
式 ， 所 以 模式 设计 和 其 他 环节 一 样 起 到 了 必 不 可 少 的 作用 。 

在 评判 HBase 性 能 时 ， 所 有 这 些 因素 都 有 影响 ， 在 优化 集群 时 ， 你 
需要 得 看 所 有 这 些 因素 。 深 入 优化 每 个 层面 超出 了 本 书 的 范围 。 我 们 在 
第 9 章 研 究 过 JVM 优 化 《尤其 是 垃圾 回收 机 制 ) 。 接 下 来 我 们 将 讨论 优 
化 HBase 集 群 的 一 些 关键 方面 。 


10.2.3 优化 支撑 系 光 








优化 HBase 集群 使 其 发 挥 最 佳 性 能 涉及 优化 所 有 的 文 撑 系统 。 如 果 
你 明智 地 选择 硬件 和 操作 系统 ， 并 且 正 确 地 安装 它们 《遵照 HBase 社 区 
概括 的 以 及 第 9 章 重 点 强调 的 最 佳 实践 )， 优 化 工作 和 它们 不 会 有 太 多 
关系 。 我 们 也 会 提 到 它们 ， 但 我 们 建议 在 这 些 方 面 你 和 系统 管理 员 携 手 
工作 以 确保 达到 目的 。 

1. 硬件 选择 

我 们 从 HBase 集 群 最 基本 的 构件 开始 硬件 。 请 确保 按照 我 们 在 
第 9 章 给 出 的 建议 选择 人 硬件。 我 们 这 里 不 重复 这 些 建议 。 但 是 总 而 言 
之 ， 选 择 充足 的 硬盘 和 内 存 ， 但 是 不 要 走 极 端 去 购买 最 先进 的 便 件 。 可 
以 购买 商用 硬件 ， 但 是 数量 上 的 选择 高 于 质量 。 在 Hadoop 和 HBase 集 群 
的 情况 下 ， 水 平 扩展 方式 收效 更 好 。 

2. 网 络 配置 

基于 当前 阶段 硬件 的 典型 分 布 式 系统 都 会 受到 网 络 限 制 。HBase 也 
不 例外 。 在 节点 和 机 架 顶 置 TOR) 交换 机 之 间 建 议 采 用 10 Gb 以 太 
网 。 不 要 过 于 满 配 地 使 用 网 络 ， 否 则 在 高 负载 时 你 会 看 到 性 能 影响 。 

3. 操作 系统 

只 要 使 用 Hadoop 和 HBase， 操 作 系 统 的 选择 就 是 Linux。Red Hat 
系列 (Red Hat Enterprise Linux [RHEL]、CentOS) 和 Debian 系列 版 本 
CUbuntu 等 ) 的 Linux 上 面 都 有 了 一 些 成 功 的 部 署 。 选 择 文 持 较 好 的 一 
种 即 可 。 

4. 本 地 文件 系统 

本 地 Linux 文 件 系统 在 这 个 体系 里 起 到 了 重要 的 作用 ， 并 且 严 重 影 
啊 到 HBase 的 性 能 。 虽 然 Ext4 是 推荐 的 文件 系统 ， 但 是 Ext3 和 XFS 也 已 
经 在 生产 系统 里 得 到 成 功 使 用 。 按 照 第 9 章 里 我 们 的 建议 优化 本 地 文件 
系统 即 可 。 

5. HDFS 

HDFS 的 性 能 对 于 性 能 良好 的 HBase 和 集群 来 说 是 至 关 重 要 的 。 如 果 



































你 已 经 正确 配置 了 底层 网 络 、 硬 盘 和 本 地 文件 系统 ， 这 里 没有 太 多 需要 
优化 的 。 

你 可 能 需要 考虑 的 另 一 个 配置 是 短 链 路 本 地 客户 端 恋 〈short- 
circuiting local client read) 。 这 个 特性 是 在 Hadoop 1.0 版 本 里 新 出 现 
的 ， 文 持 HDFS 客户 端 在 可 能 的 情况 下 直接 从 本 地 文件 系统 读数 据 块 。 
该 特性 在 读 密 集 型 和 混合 型 工作 负载 的 情况 下 特别 有 用 。 在 hdfs- 
site.xml 文 件 里 通过 设置 dfs.client.read.shortcircuit 为 true 可 以 打开 该 特 
性 。 除 此 之 外 ， 你 要 做 的 就 是 优化 数据 xciever， 我 们 在 第 9 章 重 点 强调 
过 = 








10.2.4 优化 HBase 


优化 HBase 集群 通常 涉及 优化 多 个 不 同 的 配置 参数 来 匹配 你 计划 放 
到 集群 上 的 工作 负载 。 当 你 在 集群 上 执行 性 能 测试 ， 以 及 使 用 第 9 章 提 
到 的 配置 信息 来 获得 正确 的 配置 参数 组 合 时 ， 你 需要 反复 党 试 优 化 很 多 
个 参数 。 在 为 某 种 工作 负载 配置 HBase 时 ， 不 存在 拿 来 就 能 用 的 秘诀 ， 
但 是 你 可 以 答 试 把 它们 归 为 下 面 的 某 种 类 别 。 

晶 随机 该 密集 型 。 

加 顺序 读 密集 型 。 

加 写 密集 型 。 

加 混合 型 。 

每 一 种 工作 负载 都 需要 一 种 不 同 的 优化 配置 组 合 ， 我 们 建议 你 反复 
试验 来 找 出 最 佳 组 合 。 当 你 基于 上 述 分 类 优化 集群 时 ， 接 下 来 是 一 些 供 
你 使 用 的 指导 原则 。 

1. 随机 读 密 集 型 

对 于 随机 读 密 集 型 工作 负载 ， 高 效 利 用 缓存 和 更 好 地 索引 会 带 给 你 
更 高 的 性 能 。 请 注意 表 10-1 里 列 出 的 配置 参数 。 

表 10-1 对 于 随机 读 密 集 型 工作 负载 的 优化 提示 




















配置 参数 


hfile.block 
.Cache.size 


hbase.regionserver 
.global .memstore 
.lowerLimit 


hbase.regionserver 
.global .memstore 
.UpperLimit 


HFile 数据 块 大 小 


配置 参数 


关闭 其 他 表 和 列 族 的 
缓存 


块 缓存 是 读 缓存 (LRU)。 该 属性 定义 
块 缓存 可 以 使 用 的 堆 的 最 大 百分比 


upperLimit 定义 在 一 个 RegionServer 
上 MemStore 总 共 可 以 使 用 的 堆 的 最 
大 百分比 。 遇 到 upperLimit 的 时 候 ， 
MemStore 被 刷 写 到 硬盘 ， 直 到 遇 到 
lowerLimit 时 停止 。 把 这 两 个 参数 
的 值 设 置 为 彼此 相等 意味 着 发 生 的 刷 


写 数 据 量 最 小 ， 那 时 因为 
upperLimit 一 直 被 遇 到 所 以 写 操作 
被 阻塞 。 这 样 做 会 把 写 过 程 中 的 暂停 
时 间 降 到 最 短 ， 但 是 也 会 导致 更 加 频 
繁 的 刷 写 动 作 


该 参数 被 设置 作为 指定 表 的 列 族 配置 
的 一 部 分 ， 如 下 所 示 : 
hbase(main) :002:0> create 


'mytable', {NAME => 'colfaml', 
BLOCKSIZE => '65536'} 





可 以 在 列 族 层 次 打开 布 隆 过 滤器 ， 如 
下 所 示 : 
hbase (main) :007:0> create 


'mytable', {NAME => 'colfaml', 
BLOOMFILTER => 'ROWCOL'} 


可 以 在 列 族 层次 设置 该 参数 ， 以 便 它们 
可 以 比 其 他 列 族 更 激进 地 进行 缓存 ， 如 
下 所 示 : 


hbase (main) :002:0> create 
'mytable', {NAME => 'colfamil', 
IN_MEMORY => 


'true'} 


可 以 在 列 族 层次 设置 ， 在 读 的 时 候 
不 在 BlockCache 里 进行 缓存 ， 如 下 
所 示 : 

hbase (main) :002:0> create 


'mytable', {NAME => 'colfaml', 
BLOCKCACHE => 'false’} 





对 于 随机 读 密集 型 负载 ， 
增加 缓存 使 用 的 堆 的 百 
分 比 


对 于 随机 读 密集 型 负载 ， 
在 增加 了 块 缓存 占用 堆 
的 总 量 的 机 器 上 ， 你 需要 
使 用 这 些 参 数 来 减少 
MemStore 占用 的 百分比 


数据 块 越 小 ， 则 索引 的 粒 
度 越 细 。64 KB 是 一 个 不 
错 的 起 点 ， 但 是 你 应 该 试 


试 更 小 的 值 来 看 看 性 能 是 
否 有 所 提升 
续 表 
建议 


打开 布 隆 过 滤器 可 以 减少 为 
查找 指定 行 的 Key Value 
对 象 而 读 取 的 HFile 的 数量 


该 参数 可 以 提升 随机 读 性 
能 。 打 开 它 ， 
使 用 场景 下 有 多 大 帮助 


试 试 看 在 你 的 


如 果 一 些 列 族 被 用 于 随机 读 
而 其 他 列 族 没有 被 用 到 , 没有 
被 用 到 的 列 族 可 能 会 污染 绥 
存 。 关 闭 它 们 的 缓存 会 提升 你 
的 缓存 命中 率 


顺序 读 密 集 型 


a 


读 的 规模 很 小 并 且 限 定 在 一 个 特定 的 行 键 范围 ， 





否则 很 可 能 使 用 缓存 会 





比 不 使 用 缓存 需要 更 频繁 地 访问 硬盘 。 请 注意 表 10-2 里 的 配置 参数 。 
表 10-2 对 于 顺序 读 密集 型 工作 负载 的 优化 提示 


配置 参数 


HFile 数据 块 大 小 该 参数 被 设置 作为 指定 表 的 列 族 
配置 的 一 部 分 ， 如 下 所 示 : 
hbase (main) :002:0> 
create ‘'mytable', {NAME 
BLOCKSIZE 


= EOL BemLs; 
= "65536 1 


hbase.client 
.Scanner.caching 


该 参数 定义 了 在 扫描 器 上 调用 
next 方法 时 取 回 的 行 的 数量 。 该 
数字 越 高 ， 在 扫描 过 程 中 客户 端 
需要 向 Region Server 发 出 的 远程 
调用 越 少 。 该 数字 越 高 也 意味 着 
客户 端 使 用 的 内 存 越 多 。 该 参数 
可 以 在 配置 对 象 里 基于 每 个 客户 
端 分 别 进行 设置 


配置 参数 


通过 Scan. setCache 
Blocks (..) API 关 闭 数 | 应 该 放 进 块 缓存 
据 块 的 缓存 


关闭 表 的 缓存 


缓存 到 块 缓存 ， 如 下 所 示 : 


5002:03 
'mytable', 


hbase (main) 


create 
SS owl Eaml 
=> 'false’} 








该 参数 定义 被 扫描 的 数据 块 是 否 


可 以 设置 列 族 ， 在 读 的 时 候 不 被 


{NAME 
BLOCKCACHE 


建 ” 议 
数据 块 越 大 , 则 每 次 硬盘 寻 道 时 间 
可 以 取出 的 数据 越 多 。64 KB 是 一 
个 好 起 点 , 但 你 应 该 试 试 更 大 的 值 
来 看 看 性 能 是 否 有 所 提升 。 如 果 该 
值 太 大 , 为 扫描 定位 起 始 键 的 时 候 
性 能 会 降低 


请 设置 较 高 的 扫描 器 缓存 值 ， 以 便 
在 执行 大 规模 顺序 读 时 每 次 RPC 请 
求 扫描 器 可 以 取 回 更 多 行 。 默 认 值 
是 1。 请 把 它 调 为 比 每 次 扫描 循环 预 
期 读 的 内 容 略 高 一 点 儿 的 值 。 根 据 
你 的 应 用 逻辑 以 及 在 网 络 上 返回 的 
行 的 大 小 , 缓存 值 可 能 是 50 或 1000 


续 表 


把 一 个 扫描 器 读 取 的 所 有 数据 
块 放 进 块 缓存 会 导致 翻腾 缓存 
次 数 太 多 。 对 于 大 规模 扫描 ， 
可 以 把 该 参数 设置 为 false 来 
关闭 数据 块 的 缓存 


如 果 一 张 表 主 要 使 用 大 规模 
扫描 的 访问 方式 ， 那 么 它 的 
缓存 很 可 能 不 会 提升 性 能 
相反 ,你 会 不 断 地 翻腾 缓存 ， 
影响 其 他 较 小 的 随机 读 访 问 
方式 的 表 。 你 可 以 关闭 块 绥 
存 以 便 每 次 扫描 时 不 再 翻腾 
缓存 


3. 写 密集 型 
写 密集 型 工作 负载 的 优化 方法 需要 有 别 于 读 密 集 型 负载 。 绥 存 不 再 
起 到 重要 作用 。 写 操作 总 是 进入 MemStore， 然 后 被 刷 写 生成 新 的 
HFile， 以 后 再 被 合并 。 获 得 更 好 写 性 能 的 办 法 是 不 要 太 频 繁 刷 写 、 合 
并 或 者 拆 分 ， 因 为 在 这 段 时 间 里 IO 压力 上 升 ， 系 统 会 变 慢 。 在 优化 写 
密集 型 工作 负载 时 ， 表 10-3 里 的 配置 参数 是 很 有 价值 的 。 
表 10-3 对 于 写 密集 型 工作 负载 的 优化 提示 





配置 参数 建 议 
hbase.hregion.max 该 参数 决定 底层 存储 文件 | region 越 大 意味 着 在 写 的 时 候 
0 (HstoreFile) 的 最 大 大 小 。 该 | 拆 分 越 少 。 请 调 高 该 数字 ， 看 

参数 定义 了 region 的 大 小 。 如 果 | 看 什么 情况 下 在 你 的 使 用 场景 
列 族 的 存储 文件 超过 这 个 大 小 ， | 里 可 以 得 到 最 优 的 性 能 。 我 们 
该 region 将 被 拆 分 遇 到 过 的 region 大 小 ， 范 围 从 
256MB 到 4 GB 不 等 。1 GB 是 
个 开始 测试 的 好 起 点 
hbase.hregion 该 参数 定义 MemStore 的 大 小 ， | 刷 写 到 HDFS 的 数据 越 多 ， 生 
人 以 字 节 为 单位 进行 设置 。 当 | 成 的 HFile 越 大 ， 会 在 写 的 时 


MemStore 超过 这 个 大 小 时 会 被 | 候 减 少 生成 文件 的 数量 ， 从 而 
刷 写 到 硬盘 。 一 个 周期 性 运行 的 | 减少 合并 的 次 数 
线程 会 检查 MemStore 的 大 小 





续 表 


配置 参数 


hbase.regionserver 
.global .memstore 
.lowerLimit 和 
hbase.regionserver 
.global 

.memstore 
.UpperLimit 


upperLimit 定义 在 一 个 
RegionServer 上 MemStore 总 共 可 
以 使 用 的 堆 的 最 大 百分比 。 过 到 
upperLimit 的 时 候 , MemStore 
被 刷 写 到 硬盘 ， 直 到 过 到 
lowerLimit 时 停止 。 把 这 两 个 
参数 的 值 设置 为 彼此 相等 意味 着 
发 生 的 刷 写 数据 量 最 小 ， 那 时 因 
为 upperLimit 一 直 被 遇 到 所 
以 写 操作 被 阻塞 。 这 样 做 会 把 写 
过 程 中 的 暂停 时 间 降 到 最 短 ， 但 


是 也 会 导致 更 加 频繁 的 刷 写 动作 


你 可 以 在 每 台 RegionServer 上 增 
加 分 配给 MemStore 的 堆 的 比例 。 
但 也 不 要 走 极 端 ， 因 为 这 会 导致 
垃圾 回收 问题 。 把 upper Limit 
设 为 这 样 的 值 : 能 够 容纳 每 个 
region 的 MemStore 乘 以 每 个 
Region Server 上 预期 region 的 数量 





垃圾 回收 优化 


hbase.hregion 
.memstore.mslab 
.enabled 


4. 混合 型 


MemStore-Local Allocation Buffer 
是 HBase 的 一 个 特性 ， 在 发 生 写 
密集 型 负载 时 ， 它 有 助 于 防止 堆 
的 碎片 化 。 一 些 情况 下 ， 如 果 堆 
太 大 ， 打 开 这 个 特性 有 助 于 减轻 
垃圾 回收 暂停 时 间 太 长 的 问题 。 
该 参数 的 默认 值 是 true 





在 提 到 HBase 集群 的 写 性 能 时 ， 
Java 的 垃圾 回收 发 挥 了 重要 的 作 
用 。 参 见 第 9 章 提供 的 建议 ， 请 
基于 这 些 建议 进行 优化 


请 打开 该 特性 ， 可 以 给 你 更 好 的 
写 性 能 和 更 稳定 的 操作 


对 于 完全 混合 型 工作 负载 ， 优 化 方法 变 得 有 些 复杂 。 你 需要 混合 调 
整 前 面 介 绍 的 参数 来 得 到 一 个 最 优 的 组 合 。 可 以 反复 尝试 各 种 组 合 ， 然 
后 运行 性 能 测试 ， 来 观察 什么 情况 下 能 够 得 到 最 佳 结果 。 

除了 前 面 介绍 的 配置 参数 以 外 ， 一 般 来 说 影响 性 能 的 因素 还 有 下 面 
这 些 。 

晶 压缩 一 一 使 用 压缩 可 以 减少 集群 上 的 IO 压力 。 如 同 第 4 章 介绍 
的 ， 压 缩 可 以 在 列 族 层次 打开 。 这 可 以 在 创建 表 时 或 者 更 改 表 模 式 时 进 
行 设 置 。 

昌 行 键 设计 一 一 提高 集群 的 性 能 并 不 局 限 在 集群 是 如 何 运 行 的 ， 很 
大 程度 上 与 你 使 用 集群 的 方式 有 关 。 前 面 所 有 章节 的 目的 在 于 让 你 掌握 

















足够 的 知识 来 优化 地 设计 应 用 系统 。 其 中 很 大 篇 幅 是 根据 你 的 访问 模式 
优化 行 键 设计 。 请 注意 这 一 点 。 如 果 你 认为 你 已 经 设计 了 可 能 的 最 好 的 
行 键 ， 再 检查 一 裔 ， 你 可 能 会 想 出 更 好 的 东西 。 如 何 强 调 好 的 行 键 设 计 
的 重要 性 都 不 为 过 。 

国 大 合并 一 一 大 合并 势必 要 求 所 有 RegionServer 合 并 它们 服务 的 所 
有 HFile。 我 们 建议 手工 处 理 大 合并 ， 在 预期 集群 负载 最 小 的 时 候 执 
行 。 这 一 点 可 以 在 hbase-site.xml 配 置 文件 里 使 用 
hbase.hregion.majorcompaction 参 数 来 进行 设置 。 

四 RegionServer 处 理 程序 计数 一 一 处 理 程序 是 RegionServer 上 接收 
RPC 请 求 的 线程 。 如 果 让 处 理 程序 数 太 低 ， 就 不 能 够 充分 发 挥 
RegionServer 的 能 力 。 如 果 让 它 太 高 ， 又 把 上 自己 处 于 过 量 使 用 资源 的 风 
险 里 。 在 hbase-site.xml 文件 里 使 用 hbase. regionserver.handler.count 参数 
可 以 优化 这 个 配置 。 请 优化 该 配置 参数 来 观察 在 什么 情况 下 可 以 得 到 最 
优 的 性 能 。 很 可 能 你 会 使 用 比 该 参数 的 默认 值 高 一 些 的 值 。 











10.3 集群 管理 


在 运行 一 个 生产 系统 期 间 ， 在 不 同 阶段 都 需要 执行 管理 任务 。 尽 管 
HBase 是 一 种 拥有 各 种 容错 技术 和 内 建 高 可 用 性 的 分 布 式 系统 ， 它 仍然 
需要 每 天 给 予 适 度 的 关注 。 比 如 像 启 动 或 停止 集群 、 升 级 节点 上 的 
OS、 蔡 换 坏 人 硬件 和 备份 数据 等 事情 都 是 重要 的 任务 ， 你 需要 正确 处 理 
它们 以 保证 集群 平滑 运行 。 有 时 候 这 些 任务 是 对 便 件 故 障 事件 的 反应 ， 
其 他 时 候 这 些 任 务 完全 是 为 了 更 新 到 最 新 、 最 好 的 版 本 。 

本 市 突出 强调 了 一 些 需 要 执行 的 重要 任务 ， 并 且 指 导 你 如 何 处 理 它 
们 。HBase 是 一 种 快速 发 展 中 的 系统 ， 不 是 所 有 的 问题 都 已 经 被 解决 
了 。 直 到 最 近 ，HBase 大 多 由 非常 亢 悉 内 部 工作 机 制 的 人 们 (包括 一 些 
代码 提交 人 ) 来 运营 。 社 区 还 没有 把 太 多 注意 力 放 在 制作 上 自动 化 管理 工 














具 以 简化 运营 的 方面 。 因 此 ， 我 们 在 本 节 研 究 的 一 些 内 容 比 其 他 内 容 需 
要 有 更 多 的 手工 干预 。 这 些 内 容 可 能 就 像 一 本 运 维 手 册 ， 供 集群 管理 员 
在 需要 时 参考 使 用 。 准 备 好 动手 试 试 吧 。 


10.3.1 启动 和 停止 HBase 


启动 和 停止 HBase 守 护 进 程 可 能 比 你 预期 的 情况 要 更 常见 一 些 ， 尤 
其 是 在 安装 集群 和 系统 运行 的 早期 阶段 。 对 于 这 种 操作 ， 配 置 改变 是 最 
常见 的 原因 。 你 可 以 用 不 同方 式 完 成 这 种 操作 ， 但 是 底层 规则 是 一 样 
的 。 支 撑 系 统 (CHDFS 和 ZooKeeper) 必须 在 HBase 局 动 之 前 局 动 起 来 并 
且 应 该 在 HBase 关闭 之 后 关 财 ， 其 他 时 候 HBase 守护 进程 停止 和 局 动 
的 次 序 是 无 所 谓 的 。 

1. 脚本 

不 同 的 发 行 版 本 提供 了 不 同 的 启动 /停止 守护 进程 的 脚本 。 原 生 的 
Apache 发 行 版 提供 了 下 面 的 脚本 在 $SHBASE_HOME/bin 目 录 里 ) 供 你 
使 用 。 

加 hbase-daemon.sh 一 一 启动 /停止 单个 进程 。 它 必须 在 运行 HBase 守 
护 进 程 的 每 台 机 器 上 运行 ， 这 意味 着 你 必须 手工 登录 进入 集群 中 的 所 有 
机 器 。 使 用 句法 如 下 所 示 : 


$HBASE HOME/bin/hbase-daemon.sh [start/stop/restart] [regionserver/ 
master] 









































加 hbase-daemons.sh 一 一 封装 了 hbase-daemon.sh 脚 本 ， 它 通过 SSH 登 
录 进 入 打算 运行 某 个 特定 守护 进程 和 执行 hbase-daemon.sh 的 主机 。 它 可 
以 用 来 启动 HBase Master、RegionServer 和 ZooKeeper (如果 由 HBase 管 
理 的 话 ) 。 它 需要 在 运行 该 脚本 的 主机 和 所 有 登录 进去 执行 远程 命令 的 
主机 之 间 文 持 无 密码 SSH 连 接 。 

国 Start-hbase.sh 封装 了 hbase-daemons.sh 和 hbase-daemon.sh， 它 
可 以 用 来 从 一 个 节点 启动 整个 HBase 和 集群 。 它 和 hbase-daemons.sh 一 样 需 
要 无 密码 SSH 连 接 。 通 常 该 脚本 在 HBase Master 节 点 上 运行 。 它 在 本 机 











启动 HBase Master， 人 然后 在 配置 目录 下 的 backup-masters 文 件 里 指定 的 节 
点 上 局 动 备份 Master。 该 脚本 根据 配置 目录 下 的 RegionServers 文 件 编译 








RegionServer 列 表 。 
加 stop-hbase.sh 一 一 停止 HBase 集群 。 其 执行 方式 类 似 于 start- 
hbase.Sh 脚 本 。 


CDH 发 行 版 本 提供 了 init 脚 本 ， 不 使 用 原生 的 Apache 发 行 版 本 提供 
的 脚本 。 这 些 脚本 位 于 /etc/init.d/hbase-<daemon>.sh， 可 以 用 来 启动 、 停 
止 或 者 重启 守护 进程 。 

2. 集中 起 管理 

可 以 使 用 像 Puppet 和 Chef 这 样 的 集群 省 理 框 架 ， 从 一 个 中 心 位 置 管 
理 守 护 进 程 的 启动 和 停止 。 也 可 以 为 此 使 用 像 Cloudera Manager 这 样 的 
专 有 工具 。 通 党 使 用 无 密码 SSH 连 接 会 带 来 一 些 安全 顾虑 ， 许 多 系统 管 
理 员 会 设法 寻找 其 他 替代 方案 。 


当 你 由 于 某 种 管理 原因 〈( 升 级、 更换 人 硬件 等 ) 需要 在 单 台 机 器 上 停 
止 守 护 进程 时 ， 你 需要 确保 集群 的 其 他 部 分 正常 工作 ， 并 且 确 保 从 客户 
问 应 用 来 看 停 用 时 间 最 短 。 这 势必 要 把 那 台 RegionServer 服务 的 region 
主动 转移 到 其 他 RegionServer 上 ， 而 不 是 让 HBase 被 动 地 对 那个 
RegionServer 的 下 线 进行 反应 。HBase 可 以 从 一 个 下 线 的 RegionServer 状 
态 恢复 ， 但 是 它 需 要 等 竺 检测 出 那个 RegionServer 下 线 了 ， 然 后 在 其 他 
地 方 重新 分 配 region。 同 时 ， 应 用 系统 可 能 会 经 历 一 次 可 用 性 的 轻微 降 
级 。 如 果 能 够 主动 转移 region 到 其 他 RegionServer， 然 后 杀 掉 那个 
RegionServer 会 让 该 过 程 更 安全 一 些 。 

为 此 ，HBase 提 供 了 graceful-stop.sh 脚 本 。 就 像 我 们 讨论 过 的 其 他 脚 
本 一 样 ， 这 个 脚本 也 位 于 $HBASE_HOME/bin 目 录 下 : 














$ bin/graceful stop.sh 


Usage: graceful stop.sh [==config <conf-dir>] [==restart] [==reload] 
[--thrift] [--rest] <hostname> 
Chrift If we should stop/start thrift before/after the 
hbase stop/start 
rest If we should stop/start rest before/after the hbase stop/start 
restart If we should restart after graceful stop 
reload Move offloaded regions back on to the stopped server 
debug Move offloaded regions back on to the stopped server 
hostname Hostname of server we are to stop 


该 脚本 按照 下 面 步 台 〈 按 顺序 ) 优雅 停 止 一 个 RegionServer。 
(1) 关闭 region 均 衡器 。 
(2) 从 那个 RegionServer 上 移出 region， 随 机 把 它们 分 配给 集群 中 
其 他 服务 器 。 
(3) 如 果 REST 和 Thrift 服 务 处 于 运行 状态 的 话 ， 停 止 它 们 。 
(4) 停止 RegionServer 进 程 。 

该 脚本 也 需要 从 运行 脚本 的 节点 到 需要 停止 的 RegionServer 节点 上 
的 无 密码 SSH 连 接 。 如 果 不 文 持 无 密码 SSH 连接 ， 你 可 以 碍 看 该 脚本 
的 源 代码 ， 修 改 并 实现 在 你 的 环境 里 可 以 工作 的 版 本 。 

让 节点 退役 是 个 重要 的 管理 任务 ， 它 的 第 一 步 是 使 用 优雅 停止 机 制 
来 让 RegionServer 干 净 下 线 。 随 后 ， 你 需要 从 预期 运行 RegionServer 进 程 
的 节点 上 的 节点 列表 里 把 该 节点 删 掉 ， 以 避免 你 的 脚本 或 者 自动 管理 软 
件 再 次 局 动 这 个 进程 。 








10.3.3 增加 节点 


随 着 应 用 系统 变 得 更 加 成 功 或 者 出 现 更 多 应 用 场景 ， 很 可 能 你 需要 
扩展 你 的 HBase 集 群 。 也 可 能 因为 某 种 原因 你 需要 蔡 换 一 个 节点 。 这 两 
种 情况 下 往 HBase 集 群 里 增加 一 个 节点 的 过 程 是 一 样 的 。 

你 大 概 会 在 同一 人 台 物 理 节 点 上 运行 HDFS DataNode， 上 所 以 往 HBase 
集群 里 增加 一 个 RegionServer 的 第 一 步 是 往 HDFS 里 增加 DataNode。 根 
据 你 管理 集群 的 方式 〈 是 使 用 提供 的 启动 /停止 脚本 ， 还 是 使 用 集中 式 
管理 软件 ) ， 你 需要 启动 DataNode 进程 并 且 等 待 它 加 入 HDFS 集 群 。 在 


DataNode 加 入 HDFS 集 群 后 ， 启 动 HBase RegionServer 进程 。 这 时 你 会 
在 Master 用 户 界 面 里 看 到 该 节点 加 入 了 市 点 列表 。 此 后 ， 如 果 你 需要 
重新 均衡 分 配 每 个 节点 所 服务 的 region 以 及 转移 某 些 负 载 到 新 加 入 的 
RegionServer 上 ， 可 以 使 用 下 面 的 命令 运行 均衡 器 : 
echo "balancer" | hbase shell 

该 命令 会 从 所 有 RegionServer 上 转移 一 些 region 到 新 RegionServer 
上 ， 在 整个 集群 中 重新 均衡 负载 。 运 行 均衡 器 的 负面 影响 是 ， 你 可 能 会 
失去 被 转移 region 的 数据 本 地 性 。 但 是 在 下 一 轮 大 合并 的 时 候 会 考虑 到 


1 
10.3.4 滚动 重启 和 升 双 


在 运行 的 集群 中 对 Hadoop 和 HBase 版 本 打 补 本 和 升级 并 不 少见 
尤其 是 如 果 你 想 使 用 最 新 、 最 好 的 特性 和 改善 性 能 的 话 。 在 生产 系统 
中 ， 升 级 可 能 很 复杂 。 集 群 升 级 时 经 常 是 不 能 停机 的 。 但 是 某 些 情况 
下 ， 唯 一 的 选择 就 是 停机 。 当 你 进行 大 版 本 升级 时 ， 新 版 本 的 RPC 协 议 
不 能 匹配 老 版 本 或 者 其 他 不 能 后 回 兼 容 的 改变 时 ， 一 般 会 出 现 停机 的 情 
况 。 出 现 这 种 情况 时 ， 除 了 好 好 规划 一 次 预定 停机 时 间 和 执行 升级 以 
外 ， 没 有 别 的 选择 。 

但 并 不 是 所 有 的 升级 都 是 大 版 本 升级 ， 并 且 需 要 俘 机 。 当 进行 没有 
后 向 不 兼容 的 改变 升级 时 ， 你 可 以 执行 滚动 式 升级 (rolling upgrade) 。 
这 意味 着 你 一 次 升级 一 个 节点 ， 不 用 停止 整个 集群 。 这 个 思路 是 ,干净 
地 停止 一 个 节点 ， 进 行 升 级 ， 然 后 重启 加 入 集群 。 这 种 方式 不 会 影响 应 
用 系统 的 SLA， 前 提 是 在 一 个 节点 下 线 升 级 时 ， 你 有 充足 的 空闲 容量 可 
以 服务 同样 的 流量 。 理 想 情 况 下 ，HBase 系 统 为 此 提供 一 些 脚本 供 你 运 
行 。HBase 的 确 随机 提供 了 一 些 有 用 的 脚本 ， 但 它们 只 是 这 个 概念 色 | 
的 简单 实现 ， 我 们 建议 你 根据 环境 的 需要 实现 定制 的 脚本 。 为 了 在 集群 
不 停机 的 情况 下 进行 升级 ， 请 执行 下 面 这 些 步 又 。 

















(1) 把 HBase 新 版 本 部 署 到 集群 中 所 有 节点 上 ， 如 果 ZooKeeper 也 
需要 升级 ， 请 包含 它 的 新 版 本 。 

(2) 关闭 均衡 右 进 程 。 一 个 接 一 个 地 优雅 停止 RegionServer 然 后 再 
重启 。 因 为 这 种 优雅 停止 不 是 让 节点 退役 ， 所 以 RegionServer 在 下 线 时 
服务 的 region 在 重新 上 线 时 还 会 重新 回来 。 为 了 做 到 这 一 点 ， 让 
gracefulstop.sh 脚本 带 参数 --reload 运行 。 在 所 有 RegionServer 都 重新 局 
动 后 ， 再 打开 均衡 器 。 

(3) 一 个 接 一 个 地 重启 HBase Master。 

(4) 如 果 ZooKeeper 需 要 重启 ， 一 个 接 一 个 地 重 局 quorum 里 的 所 有 
ZooKeeper 节 点 。 

(5) 升级 客户 端 。 

完成 这 些 步骤 以 后 ， 集 群 就 运行 在 升级 后 的 HBase 版 本 上 了 。 这 些 
步骤 假设 你 已 经 考虑 到 升级 展 层 的 HDFS 了 。 
你 也 可 以 使 用 相同 的 步骤 为 其 他 目的 执行 滚动 式 升 级 。 


10.3.5 bin/hbase 和 和 HBase Shell 











遍及 人 全书， 你 都 会 使 用 Shell 来 访问 HBase。 第 6 章 还 研究 了 Shell 命 
令 的 脚本 编程 和 使 用 JRuby 扩 展 Shell 编 程 。 这 些 都 是 有 帮助 的 日 常 管理 
集群 的 工具 。Shell 提 供 了 一 些 命令 ， 可 以 很 方便 地 在 集群 上 执行 简单 的 
操作 或 者 检查 集群 的 键 康 状态 。 在 我 们 深入 研究 Shell 之 前 ， 让 我 们 看 看 
bin/hbase 脚 本 提供 的 选项 (该 脚本 也 用 来 启动 Shell) 。 基 本 上 该 脚本 会 
运行 与 你 选择 的 命令 有 关系 的 Java 类 : 


$ $HBASE HOME/bin/hbase 
Usage: hbase <command> 
where <command> an option from one of these categories: 


DBA TOOLS 
shell run the HBase shell 
hbck run the hbase 'fsck' tool 
hlog write-ahead-log analyzer 
hfile store file analyzer 
ZkKCLL run the ZooKeeper shell 


PROCESS MANAGEMENT 


master run an HBase HMaster node 
regionserver run an HBase HRegionServer node 
zookeeper run a Zookeeper server 

rest run an HBase REST server 

tn run an HBase Thrift server 

avro run an HBase Avro server 


PACKAGE MANAGEMENT 


classpath dump hbase CLASSPATH 

version print the version 
or 

CLASSNAME run the class named CLASSNAME 


Most commands print help when invoked w/o parameters. 


接 下 来 几 节 里 我 们 会 研究 hbck、hlog 和 hfile 命令 。 现 在 让 我 们 启 
动 shell 命 令 。 为 了 得 到 Shell 提 供 的 命令 列表 ， 在 Shell 里 输入 help， 我 们 
会 看 到 下 面 的 内 容 : 


hbase (main) :001:0> help 
HBase Shell, version 0.92.1, 
r039a26b3c8b023cf2ele5f57ebcd0fde510d74f2,， 
Thu May 31 13:15:39 PDT 2012 
Type 'help "COMMAND'"', (e.g., 'help "get"' -- 
the quotes are necessary) for help on a specific command. 
Commands are grouped. Type 'help "COMMAND GROUP"', 
(e.g., 'help "general"') for help on a command group. 


COMMAND GROUPS: 
Group name: general 
Commands: status, version 


Group name: ddl 
Commands: alter, alter async, alter status, create, 
describe, disable, disable all, drop, drop all, enable, 
enable all, exists, is disabled, is enabled, list, show filters 


Group name: dml 
Commands: count, delete, deleteall, get, get counter, 
incr; put Scan; truncate 


Group name: tools 

Commands: assign, balance switch, balancer, close region, 
compact, flush, hlog roll, major compact, move, split, 
unassign, zk dump 

Group name: replication 

Commands: add peer, disable peer, enable peer, list peers, 
remove peer, start replication, stop replication 


Group name: security 
Commands: grant, revoke, user permission 


SHELL USAGE: 
Quote all names in HBase Shell such as table and column names. 


Commas delimit 
command parameters. Type <RETURN> after entering a command to run it. 
Dictionaries of configuration used in the creation and 

alteration of tables are 
Ruby Hashes. They look like this: 


{'kKkeyl' => 'valuél1l', 'key2' => 'value2', .,.} 


and are opened and closed with curly-braces. 

Key/values are delimited by the '=>' character combination. 

Usually keys are predefined constants such as 

NAME, VERSIONS, COMPRESSION, etc. 

Constants do not need to be quoted. Type 

IObject .constants' to see a (messy) list of all constants in the environment. 


If you are using binary keys or values and need 
to enter them in the shell, use double-quote'd 
hexadecimal representation. For example: 


hbase> get 't1', "key\x03\x3f\xcd" 
hbase> get 't1', "key\003\023\011" 
hbase> put 't1', "test\xef\xff", 'f1:', “"\xO01l\x33\x40" 


The HBase shell is the (J)Ruby IRB with the 

above HBase-specific commands added. 

For more on the HBase Shell, see http://hbase.apache.org/docs/current/ 
book .html 


我 们 将 聚焦 于 命令 工具 组 ( 粗 体 显示 的 部 分 ) 。 要 想得到 任何 命令 
的 介绍 ， 你 可 以 在 Shell 里 运行 help 'command_name'， 如 下 所 示 : 


hbase (main) :003:0> help 'status' 
Show cluster status. Can be 'summary', 'simple', or 'detailed'. The 
default is 'summary'. Examples: 


hbase> status 

hbase> status 'simple' 
hbase> status 'summary'! 
hbase> status 'detailed' 


1. zk_dump 
你 可 以 运行 zk_dump 命 令 来 了 解 ZooKeeper 的 当前 状态 : 


hbase (main) :030:0> > zk dump 
HBase is rooted at /hbase 
Master address: 01.mydomain.com:60000 
Region server holding ROOT: 06.mydomain.com:60020 
Region servers: 

06.mydomain.com:60020 

04.mydomain.com:60020 

02.mydomain.com:60020 

05.mydomain.com:60020 

03.mydomain.com:60020 
Quorum Server Statistics: 

03.mydomain.com:2181 

Zookeeper version: 3.3.4-cdh3u3--1, built on 01/26/2012 20:09 GMT 


Clients: 


02.mydomain.com:2181 
Zookeeper version: 3.3.4-cdh3u3--1, built on 01/26/2012 20:09 GMT 
Clients: 


01.mydomain.com:2181 
Zookeeper version: 3.3.4-cdh3u3--1, built on 01/26/2012 20:09 GMT 
Clients: 


该 命 令 告 诉 你 当前 运行 的 HBase Master、 构 成 集群 的 RegionServer 
列表 、-ROOT- 表 的 位 置 和 构成 ZooKeeper quorum 的 服务 器 列表 。 
ZooKeeper 是 HBase 集群 的 入 口 和 在 谈 到 集群 中 成 员 资格 时 的 信息 源 
头 。 在 设法 对 集群 问题 进行 排 错 时 ， 例 如 找 出 哪 一 台 是 当前 运行 的 
Master 服务 器 ， 或 者 哪个 RegionServer 托管 了 -ROOT- 表 等 ， 由 
zk_dump 命 令 输 出 的 信息 是 很 有 帮助 的 。 


2. status 命 令 


你 可 以 使 用 status 命令 来 判断 集群 的 状态 。 该 命令 有 3 个 选项 ， 即 
simple、summary 和 detailed。 默 认 选 项 是 summary。 我 们 在 这 里 展示 下 
所 有 3 个 选项 ， 让 你 知道 每 个 选项 包含 的 信息 : 


hbase (main) :010:0> status !SuUmmary' 
1 servers, 0 dead, 6.0000 average load 


hbase (main) :007:0> status 'simple' 
1 live servers 
localhost:62064 1341201439634 
requestsPerSecond=0, numberOfOnlineRegions=6, 
usedHeapMB=40, maxHeapMB=987 
0 dead servers 
Aggregate load: 0, regions: 6 


hbase (main) :009:0> status 'detailed'! 
version 0.92.1 
0 regionsInTransition 
master coprocessors: [] 
1 live servers 
localhost:62064 1341201439634 
requestsPerSecond=0, numberOfOnlineRegions=6, 
usedHeapMB=40, maxHeapMB=987 
-ROOT=,,0 
numberOfStores=1, numberOfStorefiles=2, 
storefileUncompressedSizeMB=0, 
storefileSizeMB=0, memstoreSizeMB=0, 
storefileIndexSizeMB=0, readRequestsCount=48, 
writeRequestsCount=1, rootIndexSizeKB=0, 
totalStaticIndexSizeKB=0, totalStaticBloomSizeKB=0, 
totalCompactingKVs=0, currentCompactedKVs=0, 
compactionprogressPct=NaN, coprocessors=[] 
MBEA .sd 


numberOfStores=1, numberOfStorefiles=1, 
storefileUncompressedSizeMB=0, storefileSizeMB=0, 
memstoreSizeMB=0, storefileIndexSizeMB=0, 
readRequestsCount=36, writeRequestsCount=4, 
rootIindexSizeKB=0, totalStaticIindexSizeKB=0, 
totalStaticBloomSizeKB=0, totalCompactingKVs=28, 
currentCompactedKVs=28, compactionPprogressPct=1.0, 
Coprocessors=[] 
table,,1339354041685.42667e4f00adacec75559f28a5270a56. 
numberOfStores=1, numberOfStorefiles=1, 
storefileUncompressedSizeMB=0, storefileSizeMB=0, 
memstoreSizeMB=0, storefileIndexSizeMB=0, 
readRegquestsCount=0, writeRequestsCount=0, 
rootIndexSizeKB=0, totalStaticIndexSizeKB=0, 
totalStaticBloomSizeKB=0, totalCompactingKVs=0, 
currentCompactedKVs=0, compactionprogressPct=NaN, 
coprocessors=[] 
t1i,,1339354920986 .fba20c93114a81cc72cc447707e6b9ac . 
numberOfStores=1, numberOfStorefiles=1, 
storefileUncompressedSizeMB=0, storefileSizeMB=0, 
memstoreSizeMB=0, storefileIndexSizeMB=0, 
readRequestsCount=0, writeRequestsCount=0, 
rootIindexSizeKB=0, totalStaticIndexSizeKB=0, 
totalStaticBloomSizeKB=0, totalCompactingKVs=0, 
currentCompactedKVs=0, compactionProgressPct=NaN, 
coprocessors=[] 
tablel,,1340070923439 .fl1450e26b69c010ff23el4f83eddq36b9 ， 
numberOfStores=1, numberofStorefiles=1, 
storefileUncompressedSizeMB=0, storefileSizeMB=0, 
memstoreSizeMB=0, storefileIndexSizeMB=0, 
readRequestsCount=0, writeRegquestsCount=0, 
rootIindexSizeKB=0, totalStaticIndexSizeKB=0, 
totalStaticBloomSizeKB=0, totalCompactingKVs=0, 
currentCompactedKVs=0, compactionPprogressPct=NaN, 
coprocessors=[] 
ycsb, ,1340070872892.2171ldad81lbfe65e6ac6fe081a66c8dfqd. 
numberOfStores=1, numberOfStorefiles=0, 
storefileUncompressedSizeMB=0, storefileSizeMB=0, 
memstoreSizeMB=0, storefileIndexSizeMB=0, 
readRequestsCount=0, writeRegquestsCount=0, 
rootIindexSizeKB=0, totalStaticIndexSizeKB=0, 
totalStaticBloomSizeKB=0, totalCompactingKVs=0, 
currentCompactedKVs=0, compactionPprogressPpct=NaN, 
coprocessors=[] 
0 dead servers 


如 同 你 看 到 的 ，detailed status 命令 给 出 了 一 串 RegionServer 和 它们 
服务 的 region 的 信息 。 当 你 诊断 问题 需要 关于 region 和 为 它们 服务 的 服 
务 器 的 深入 信息 时 ， 这 是 很 有 帮助 的 。 

除 此 以 外 ，summary 选 项 还 提供 给 你 活 的 服务 器 数量 、 死 的 服务 器 
数量 以 及 当时 的 平均 负载 。 对 于 得 看 节点 是 否 起 来 和 是 否 超载 的 健康 检 
但 来 说 ， 这 多 半 是 有 帮助 的 。 

3. 合并 

从 Shell 里 触发 合并 动作 不 应 该 是 经 常 要 做 的 事情 ， 但 是 如 果 需 要 这 
样 做 ，Shell 的 确 提供 了 这 种 操作 命令 。 你 可 以 分 别 使 用 compact 和 和 
major_compact 命 令 在 Shell 里 触发 合并 ， 包 括 小 合并 (minor 


compaction ) 和 大 合并 (major compaction ) : 

hbase (main) :011:0> help 'compact! 

Compact all regions in passed table or pass a region row to 
compact an individual region 


在 一 张 表 上 触发 小 合并 ， 如 下 所 示 : 


hbase (main) :014:0> compact 't' 
0 row(s) in 5.1540 seconds 


在 一 个 特定 的 region 上 触发 小 合并 ， 如 下 所 示 : 
hbase (main) :015:0> compact 
't,,1339354041685.42667e4f00adacec75559f28a5270a56.'! 
0 row(s) in 0.0600 seconds 


如 果 你 关闭 了 自动 大 合并 ， 并 且 通 过 手工 处 理 合 并 ， 该 命令 会 很 有 
帮助 ， 你 可 以 把 大 合并 写 入 脚本 ， 在 合适 的 时 间 以 计划 作业 形式 运行 
( 当 集 群 的 负载 较 小 时 )〉。 

4. 均衡 器 

均衡 器 负责 确保 所 有 RegionServer 服 务 同样 数量 的 region。 现 在 的 均 
衡器 实现 考虑 每 个 RegionServer 的 region 数 量 ， 如 果 分 布 不 均衡 ， 它 会 答 
试 重新 分 配 它们 。 你 可 以 通过 Shell 运 行 均衡 器 ， 如 下 所 示 : 























hbase (main) :011:0> balancer 
true 
0 re in 0.0200 seconds 


在 运行 均衡 器 时 ， 其 返回 值 是 true 或 者 false， 这 和 均衡 器 是 否 运 行 
有 关 。 

a ee 当 你 运行 该 命令 时 ， 
返回 true 或 者 false。 返 回 值 代表 该 命令 运行 前 的 均衡 器 状态 。 为 了 让 均 
衡器 自动 运行 ， 把 true 作 为 参数 传递 给 balance_switch 命 令 。 为 了 关闭 均 
衡器 ， 则 传递 false。 例 如 : 


hbase (main) :014:0> balance Switch false 
true 
0 row(s) in 0.0200 seconds 

该 命令 会 天 闭 上 自动 均衡 器 。 如 返回 值 所 示 ， 该 命令 运行 前 均衡 器 是 
打开 的 。 

5. 拆 分 表 或 者 region 

Shell 提供 了 拆 分 已 有 表 的 能 力 。 理 想 情 况 下 ， 你 不 需要 手工 处 理 
这 件 事 情 。 但 是 有 些 情况 下 ， 像 region 热 点 ， 你 可 能 需要 手工 拆 分 成 为 
热点 的 region。 但 是 ， 热 点 region 通 第 指 癌 另 一 个 问题 一 一 糟糕 的 行 键 设 
计 导 致 了 不 合适 的 负载 分 布 。 

可 以 给 split 命 令 提 供 一 个 表 名 ， 该 命令 会 拆 分 那 张 表 上 的 所 有 
region; 或 者 你 可 以 指定 需要 拆 分 的 特定 region。 如 果 你 定义 了 拆 分 键 ， 
该 命令 只 围绕 那个 键 进行 拆 分 : 

hbase (main) :019:0> help 'split' 
你 可 以 拆 分 整 张 表 ， 也 可 以 传递 一 个 region 来 拆 分 单个 region。 你 可 


以 通过 第 二 个 参数 为 region 明 确 指定 拆 分 键 。 如 下 面 例 子 所 示 : 

split '‘'tableName'! 

split 'regionName' # format: 'tableName, startKey,id' 
split 'tableName', 'splitkKey'! 

split 'regionName', 'splitrKey' 


下 面 的 例子 围绕 键 G 拆 分 mytable 表 : 











hbase (main) :019:0> split 'mytable' , 'G'! 

表 也 可 以 在 创建 的 时 候 被 预先 拆 分 。 你 也 可 以 使 用 Shell 来 这 样 处 
理 。 我 们 在 本 章 后 面 研究 预先 拆 分 。 

6. 更 改 表 模式 

使 用 Shel 可 以 更 改 已 有 表 的 属性 。 例 如 ， 假 设 你 想 给 一 些 列 族 增加 
压 绾 属性 ， 或 者 增加 时 间 版 本 的 数量 。 为 此 ， 你 必须 关闭 表 ， 做 出 更 
改 ， 重 新 打开 表 ， 如 下 所 示 ; 


hbase (main) :019:0> disable 't' 
0 row(s) in 2.0590 seconds 











hbase (main) :020:0> alter 't', NAME => 'f', VERSIONS => 1 
Updating all regions with the new schema... 

1/1 regions updated. 

Done.. 

0 row(s) in 6.3300 seconds 


hbase (main) :021:0> enable 上 tt 
0 row(s) in 2.0550 seconds 


你 可 以 在 Shell 里 使 用 describe 'tablename' 命 令 检 查 被 改变 的 表 属 
性 。 
7. 和 截断 表 
截 岂 (truncate〉 表 意味 着 删除 所 有 数据 但 保留 表 结 构 。 这 张 表 仍 
然 存 在 于 系统 里 ， 但 在 运行 truncate 命 令 后 该 表 是 空 的 。 在 HBase 中 截断 
一 张 表 涉 及 关闭 表 、 删 除 表 和 重新 创建 表 等 动作 。truncate 命 令 为 你 执 
行 所 有 这 些 动作 。 对 于 一 张 巨大 的 表 ， 截 断 可 能 很 费时 间 ， 因 为 在 删除 
region 之 前 所 有 的 region 必 须 下 线 和 关闭 。 
hbase (main) :023:0> truncate tt， 
Truncating 't' table (it may take a while): 
- Disabling table... 
- Dropping table... 
- Creating table... 
0 row(s) in 14.3190 seconds 














文件 系统 会 提供 文件 系统 检查 工具 ， 就 像 fsck 一 样 检 查 文件 系统 的 
一 致 性 。 这 些 工 具 通 常会 周期 性 地 运行 来 了 解 文件 系统 的 状态 ， 或 者 在 
系统 表现 不 正常 时 专门 检查 完整 性 。HBase 提 供 了 一 个 类 似 的 叫做 
hbck (或 者 HBaseFsck) 的 工具 ， 用 来 检查 HBase 集 群 的 一 致 性 和 完整 
性 。hbck 有 最近 经 历 了 一 次 彻底 修改 ， 这 个 作为 修改 结果 的 工具 得 到 了 一 
个 绰号 uberhbck。 这 个 hbck 的 uber 版 本 在 版 本 0.90.7+、0.92.2+ 和 
0.94.0+ 里 可 以 得 到 。 我 们 会 介绍 该 工具 提供 的 功能 以 及 在 什么 地 方 用 得 
上 上 区。 

阅读 手册 ! 

根据 你 使 用 的 HBase 版 本 ，hbck 提 供 的 功能 可 能 有 些 区 别 。 我 们 建 
议 你 阅读 你 使 用 版 本 的 手册 ， 来 了 解 这 个 工具 在 你 的 环境 里 提供 了 什么 
功能 。 如 果 你 是 个 懂行 的 用 户 ， 并 且 想 得 到 你 用 的 版 本 不 提供 而 后 续 版 
本 提供 的 更 多 功能 ， 你 可 以 同 后 移植 JIRA ! 

hbck 是 一 个 帮助 你 检查 HBase 集群 中 的 不 一 致 的 工具 。 这 种 不 一 
致 可 能 在 两 个 层面 发 生 。 

图 Tegion 不 一 致 一 一 每 个 region 被 分 配 和 部 晋 到 一 个 且 只 有 一 个 
RegionServer， 并 且 关 于 region 状 态 的 所 有 信息 正确 反映 这 一 点 。 基 于 上 
述 事实 ， 我 们 定义 了 HBase 中 的 region 一 致 性 。 如 果 违 反 这 个 特性 ， 就 
认为 集群 处 于 不 一 致 的 状态 。 

晶 表 不 一 致 一 一 每 个 可 能 的 行 键 只 能 属于 一 个 且 只 有 一 个 表 的 
region。 基 于 上 述 事实 ， 我 们 定义 了 HBase 中 表 的 完整 性 。 如 果 违 反 这 
个 特性 ， 说 明 HBase 集 群 处 于 不 一 致 的 状态 。 

hbck 执 行 两 个 主要 功能 : 检测 不 一 致 性 和 修复 不 一 致 性 。 

1. 检测 不 一 致 

你 可 以 使 用 hbck 主动 检测 集群 的 不 一 致 。 你 也 可 以 等 待 应 用 系统 














抛 出 异常 ， 比 如 找 不 到 region 或 者 不 知道 把 某 个 行 键 写 入 哪个 region 
等 ， 但 是 你 可 以 在 这 些 问题 影响 到 应 用 系统 之 前 把 它们 检查 出 来 ， 两 者 
相 比 ， 被 动 等 待 的 做 法 代价 要 大 得 多 。 

你 可 以 运行 hbck 工 具 来 检测 不 一 致 ， 如 下 所 示 : 

$ SHBASE HOME/bin/hbase hbck 

运行 该 命令 时 ， 它 提供 给 你 所 发 现 的 不 一 致 情况 列表 。 如 果 一 切 正 
党 ， 它 输出 OK。 运 行 hbck 时 ， 它 偶尔 会 抓 到 临时 的 不 一 致 。 例 如 ， 在 
region 拆 分 期 间 ， 看 起 来 好 像 有 不 只 一 个 region 在 服务 同一 个 行 键 范 
围 ， 这 被 hbck 检 测 为 不 一 致 。 但 是 RegionServer 知 道子 region 会 接收 所 有 
服务 请 求 而 父 region 马 上 就 要 退出 ， 所 以 这 并 不 是 真 的 不 一 致 。 在 数 分 
钟 里 多 运行 几 次 hbck， 看 看 不 一 致 的 地 方 是 否 一 直 存 在 ， 是 否 只 是 在 系 
统 过 渡 期 间 捕 获 的 表面 上 的 不 一 致 。 为 了 了 解 更 多 输出 的 不 一 致 的 细 
节 ， 你 可 以 带 着 -details 标 志和 运行 hbbck， 如 下 所 未: 

$ SHBASE HOME/bin/hbase hbck -details 

你 还 可 以 采用 自动 化 方式 周期 性 地 运行 hbck 来 监控 集群 随时 间 变 
化 的 健康 情况 ， 如 果 hbck 连续 报告 不 一 致 则 给 你 发 出 警告 。 除 非 你 的 
集群 上 有 很 多 负载 〈 可 能 导致 过 度 的 拆 分 、 合 并 和 region 转 移 等 ) ， 每 
10 一 15 分 钟 运行 一 次 hbck 应 该 足够 了 了 。 对 于 本 例 ， 可 以 考虑 更 高 频 度 地 
运行 hbck。 

2. 修复 不 一 致 

如 果 你 发 现 了 HBase 集群 中 的 不 一 致 ， 要 尽 可 能 修复 它们 以 避免 齐 
遇 进 一 步 的 问题 和 无 法 预期 的 表现 。 直 到 最 近 ， 在 这 方面 还 没有 上 自动 化 
工具 可 以 帮 上 忙 。 这 在 较 高 的 hbck 版 本 里 有 所 变化 : hbck 现 在 可 以 修复 
集群 的 不 一 致 。 

警告 

四 有 些 不 一 致 《如 在 .META. 表 里 的 错误 分 配 ， 或 者 region 被 分 配 
给 多 个 RegionServer) 可 以 在 HBase 在 线 时 进行 修复 。 其 他 的 不 一 致 





《例如 region 的 键 范 围 重 登 ) 处 理 起 来 要 复杂 一 些 ， 我 们 建议 在 修复 这 
人 

卓 人们 经 常 还 是 高 级 外 科 
手术 。 除 非 你 知道 自己 在 做 什么 并 且 沉 得 有 把 握 ， 人 否则 不 要 执行 修复 处 
理 。 在 一 个 生产 集群 上 开始 处 理 之 前 ， 请 先 在 开发 /实验 环境 测试 这 个 
工具 并 对 测试 情况 心理 有 数 ， 了 解 其 内 部 工作 机 制 和 它 所 做 的 事情 ， 请 
教 邮 件 列表 里 的 开发 人 员 并 听取 他 们 的 意见 。 你 不 得 不 修复 不 一 致 的 事 
实 本 身 说 明 ， 要 么 在 HBase 里 存在 潜在 的 错误 ， 要 么 可 能 是 因为 不 合适 
的 应 用 设计 以 HBase 不 擅长 的 方式 把 HBase 推 癌 了 极限 。 请 当心 ! 

接 下 来 ， 我 们 将 介绍 各 种 不 一 致 的 类 型 以 及 如 何 使 用 hbck 来 修复 它 
们 s 

晶 不 正确 的 分 配 一 一 这 是 由 于 .META. 表 保存 了 region 的 错误 信息 
这 种 情况 有 3 种 可 能 : region 被 分 配给 了 多 个 RegionServer，region 被 错 
误 地 分 配给 了 一 个 RegionServer 但 却 由 另 一 个 RegionServer 提 供 服 务 ， 
region 存 在 于 .META. 表 里 但 是 没有 被 分 配给 任何 RegionServer。 这 些 不 
一 致 情况 可 以 通过 带 -fixAssignments 标 志 运 行 hbck 来 修复 。 在 hbck 的 早 
期 版 本 里 ， 使 用 -fix 标 志 完 成 这 个 工作 。 

晶 失踪 的 或 者 多 余 的 region 一 一 如 果 HDFS 保存 了 在 .META. 表 里 没 
有 记录 的 region， 或 者 .META. 表 保存 了 在 HDFS 里 不 存在 的 region 的 多 余 
记录 ， 这 被 认为 是 不 一 臻 。 这 些 情况 可 以 通过 市 -fixMeta 标 志 运 行 hbck 
来 修复 。 如 果 HDFS 没有 保存 .META. 表 认为 应 该 存在 的 region， 在 
HDFS 里 会 创建 一 个 和 .META. 表 里 的 记录 对 应 的 空 region。 你 可 以 使 用 - 
fixHdfsHoles 标 志 完 成 这 项 工作 。 

前 面 提 到 的 修复 处 理 都 是 低 风 险 的 ， 通 单打 包 在 一 起 运行 。 为 了 打 

包 在 一 起 执行 ， 市 -repairHoles 标 志 运 行 hbbck 即 可 。 这 会 执行 所 有 3 种 修 


复 处 理 。 
$ SHBASE HOME/bin/hbase hbck -repairHoles 























不 一 致 的 情况 可 外 ee XL 坚信 的 可 能 需 
要 小 心 每 个 region 
在 HDFS 里 保存 有 一 了 ee 文件 ， 它 保存 该 region 的 元 数据 。 如 
果 该 文件 丢失 并 且 .META. 表 也 没有 保存 该 region 的 记录 ，- 
fixAssignments 标志 也 不 会 奏效 。 可 以 带 -fixHdfsOrphans 标 志 运 行 hbck 
来 收集 一 个 丢失 了 .regioninfo 文 件 的 region。 

四 重 登 的 region 一 一 这 是 到 目前 为 止 需要 修复 的 最 复杂 的 不 一 致 情 
况 。 有 时 候 region 可 能 有 重 登 的 键 范围 。 例 如 ， 假 设 Region 1 为 键 范围 A 
一 I 提供 服务 ， 而 Region 2 为 键 范 Ee Ne 在 这 两 个 region 里 键 
范围 F 一 I 是 重 登 的 《参见 图 10-9) 。 你 可 以 通过 市 -fixHdfsOverlaps 参 数 
运行 hbck 来 修复 这 种 情况 。hbck 合 并 这 两 个 region 来 修复 这 种 不 一 致 。 
如 果 重 有 登 的 region 的 数量 巨大 并 且 合 并 会 导致 生成 一 个 大 region， 那 么 
这 种 修复 处 理 可 能 会 导致 密集 的 合并 和 拆 分 。 为 了 避免 密集 的 合并 和 拆 
分 ， 这 种 情况 下 的 底层 HFile 可 能 会 被 劳 路 到 一 个 单独 的 目录 里 ， 过 后 
再 批量 导入 到 HBase 表 里 。 为 了 限制 合并 的 数量 ， 可 以 使 用 -maxMerge 
<n> 标 志 。 如 果 参 加 合并 的 region 的 数量 大 于 n， 它 们 会 被 劳 路 处 理 而 
不 是 被 合并 。 如 有 果 达 到 最 大 合并 大 小 ， 可 以 使 用 -sidelineBigOverlaps 标 
志 来 打开 region 的 旁 路 处 理 。 你 可 以 使 用 -maxOverlapsToSideline <m> 
me 次 旁 路 处 理 的 region 的 最 人 入 数量 。 


region ] region 2 


图 记 9 键 范围 F 一 I 由 两 个 region 提 供 服 务 。 这 两 个 region 负 责 的 键 苑 
围 有 重 登 。 你 可 以 用 hbck 修 复 这 种 不 一 致 
如 果 你 打算 执行 所 有 这 些 修 复 处 理 ， 经 常会 使 用 -repair 标志 而 不 是 
逐个 使 用 前 面 的 每 个 标志 。 你 还 可 以 把 表 名 字 传递 给 修复 标志 来 限定 修 
复 特 定 的 表 (-repair MyTable) 。 
































警告 修复 HBase 表 的 不 一 致 是 一 种 高 级 运 维 任务 。 我 们 鼓励 你 阅 
读 在 线 手 册 ， 并 且 在 生产 集群 上 运行 之 前 尽量 先 在 开发 环境 里 运行 
hbck。 还 有 ， 阅 读 该 脚本 的 源 代码 永远 没有 害处 。 


10.3.7 查看 HFile 和 HLog 


HBase 提供 了 实用 工具 来 检查 在 写 的 时 候 创建 的 HFile 和 
HLog (WAL) 。HLog 位 于 文件 系统 上 HBase 根 目录 下 的 .logs 目录 
里 。 你 可 以 使 用 bin/hbase 脚本 的 hlog 命令 来 检查 它们 ， 如 下 所 示 : 


$ bin/hbase hlog /hbase/.logs/regionserverhostname,60020,1340983114841/ 
regionserverhostname%2C60020%2C1340983114841.1340996727020 














12/07/03 15:31:59 WARN conf .Configuration: fs.default .name 
is deprecated. Instead, use fs.defaultFs 
12/07/03 15:32:00 INFO util.NativeCodeLoader: Loaded the 
native-hadoop librarySequence 650517 from region 
a89b462b3b0943daa3017866315b729e in table users 
Action: 
row: USEer8257982797137456856 
column: s:fieldo0 
at time: Fri Jun 29 12:05:27 PDT ‘2012 
Action: 
row: USer8258088969826208944 
column: s:field0 
at time: Fri Jun 29 12:05:27 PDT 2012 
Action: 
row: USer8258268146936739228 
column: s:fieldo0 
at timMes Fri, Jun, 29 12505527 PBT OTL2 
Action: 
row: user825878197280400817 
column: s:fieldo0 
at time: Fri Jun 29 12:05:27 PDT 2012 


其 输出 是 在 那个 特定 HLog 文 件 里 记录 的 edits 列 表 。 
该 脚本 有 一 个 类 似 的 工具 用 于 检查 HFile。 要 输出 该 命令 的 帮助 信 
晨 ， 不 融 任 何 参 数 运行 该 命令 即 可 : 


$ bin/hbase hfile 


usage: HFile [-a] [-b] [-e] [-f <arg>] [-k] [-m] [-p] [-r <arg>] [-s] [-vV] 
-a,--checkfamily Enable family check 
-b,--printblocks Print block index meta data 
-e,--printkey Print keys 
-f,--file <arg> File to scan. Pass full-path; e.g., 
hdfs://a:9000/hbase/ .META./12/34 
-k,--checkrow Enable row order check; looks for out-of-order keys 
-m,--printmeta Print meta data of file 
-p,--printkv Print key/value pairs 
-r,--region <arg> Region to scan. Pass region name; e.g., '.META.,,1' 
-Ss,--stats Print statistics 
-V,--Vverbose Verbose output; emits file and meta data delimiters 


检查 一 个 特定 HFile 的 统计 信息 的 例子 如 下 : 
$ bin/hbase hfile -s -f /hbase/users/0a2485f4febcf7al3913b8b040bcacc7/s/ 
633132126d7e40b68aelcl2dead82898 


Stats: 
Key length: count: 1504206 min: 35 max: 42 mean: 41.88885963757624 
Val length: count: 1504206 min: 90 max: 90 mean: 90.0 


Row size (bytes): count: 1312480 mls 工 33 
max: 280 mean: 160.32370931366574 

Row size (columns): count: 1312480 min: 1 
max: 2 mean: 1.1460791783493844 

Key of biggest row: user8257556289221384421 


你 可 以 看 到 很 多 关于 该 HFile 的 信息 。 你 可 以 使 用 其 他 参数 来 获得 
不 同 的 信息 。 如 果 你 在 遇 到 问题 时 打算 了 解 系统 的 运转 状态 ， 查 看 
HLog 和 HFile 的 功能 是 很 有 帮助 的 。 


10.3.8 预先 拆 分 表 


在 密集 的 写 负 载 期 间 ， 拆 分 表 的 动作 可 能 会 导致 延迟 变 长 。 拆 分 动 
作 之 后 通常 会 紧 跟着 region 转 移动 作 来 重新 均衡 集群 ， 这 会 增加 压力 。 
另外 ， 把 表 进 行 预 拆 分 对 于 批量 加 载 任务 也 是 值得 期 竺 的 ， 这 一 点 本 章 
后 面 研 究 。 如 果 键 的 分 布 情况 是 已 知 的 ， 你 可 以 在 创建 表 的 时 候 把 表 拆 
分 成 期 望 的 region 数 量 。 

每 个 RegionServer 先 从 几 个 region 开 始 提供 服务 是 明智 的 做 法 。 一 个 
好 的 起 点 是 每 个 RegionServer 在 开始 时 候 为 不 超过 10 个 region 提供 服 
务 。 这 暗示 了 region 的 大 小 〈region 越 少 ， 则 应 该 越 大 ) ， 你 可 以 使 用 





hbase.hregion.max.filesize 配 置 属性 在 系统 层面 进行 设置 。 如 果 你 把 该 数 
字 设 置 为 期 望 的 region 大 小 ， 在 region 达 到 这 个 大 小 后 HBase 会 自动 拆 分 
它们 。 但 是 把 该 数字 设置 为 远 高 于 期 望 的 region 大 小 ， 则 会 让 你 能 够 在 
HBase 拆 分 之 前 手工 管理 region 的 大 小 。 对 于 系统 管理 员 来 说， 这 意味 
着 更 多 的 工作 ， 但 是 可 以 更 精细 地 控制 region 的 大 小 。 手 工 管理 表 的 拆 
分 是 一 种 高 级 运 维 做 法 ， 只 有 当 你 在 开发 环境 里 测试 过 并 且 对 结果 满意 
的 情况 下 才 可 以 这 样 做 。 如 果 拆 分 过 度 ， 最 终 你 会 得 到 许多 小 region。 
如 果 不 能 及 时 拆 分 ， 在 你 的 region 达到 配置 的 region 大 小 时 HBase 会 路 
进来 进行 自动 拆 分 ， 因 为 此 时 region 可 能 已 经 很 大 ， 这 会 导致 占用 更 长 
时 间 的 大 合并 。 

可 以 在 创建 表 的 时 候 使 用 HBase Shell 预先 拆 分 region。 这 种 处 理 方 
法 需要 有 一 个 保存 了 拆 分 键 列 表 的 文件 ， 在 这 个 文件 里 每 行列 出 一 个 
键 。 例 子 如 下 所 示 : 














cat ~/splitkeylist 


NWPU 


D 
使 用 列 出 的 键 作 为 拆 分 分 界线 ， 为 了 创建 这 样 的 表 在 Shell 里 运行 下 
面 的 命令 : 
hbase (main) :019:0> create 'mytable' ， 'family', 
{SPLITS FILE => '~/splitkeylist')} 
该 命令 创建 了 一 张 有 预 拆 分 region 的 表 。 你 可 以 透 过 Master Web 
用 户 界面 来 确认 这 一 点 《参见 图 10-10) 。 


Table: mytable 


Master, Local logs, Thread Dump,Log Level 





Table Attributes 
Neribute Name 


Enapied |e | the able enabied 


Table Regions 


en ee for Reena ReyRegoest 
区 二 
o 


mytable,C,1341524474553.20fef704d9e342675761d4187a7af769. jl72.21.0.251:60030lC Jp lo | 
mytable,D,1341524474553.4249f13108ecfbfrf05bld0d594624ala. |172.210.251:60030|[D | lo | 


图 10-10 HBase Master 用 户 界 面 显 示 了 在 创建 时 通过 提供 拆 分 键 创 
建 的 预 拆 分 表 。 注 意 region 的 起 始 键 和 结束 键 
创建 一 张 有 预 拆 分 region 的 表 的 另 一 种 方法 是 使 用 
HBaseAdmin.createTable (...JAPI， 如 下 所 示 : 
string tableName = "mytable",; 
String Startkey Ss “Ar: 
String endKey = "D"; 
int numOfSplits = 5; 





HBaseAdmin admin = new HBaseAdmin (conf),，; 
HTableDescriptor desc = new HTableDescriptor (tableName), 
HColumnDescriptor col = new HColumnDescriptor ("family"),; 
desc.addFamily (col); 
admin.createTable(desc, startKey, endKey, numOfSplits); 
我 们 在 utils 包 下 提供 的 代码 里 为 你 准备 了 一 个 实现 ， 其 名 字 是 
TablePre Splitter。 
另 一 个 创建 预 拆 分 表 和 此 后 均衡 拆 分 它们 的 实现 打包 在 HBase 的 
org.apache. hadoop.hbase.util.RegionSplitter 类 里 。 


本 节 我 们 研究 了 许多 运 维 和 管理 任务 ， 给 你 提供 了 足够 多 的 运行 


HBase 集群 的 知识 。 成 功 运 维 一 个 系统 还 包括 处 理 各 种 故障 情况 的 能 
力 ， 以 及 在 灾难 及 生 时 保持 运行 和 性 能 损失 最 小 的 能 力 。 下 一 区 将 探索 
在 HBase 环 境 里 备份 的 概念 及 其 重要 所 在 。 





10.4 备份 和 复制 





备份 越 来 越 成 为 系统 管理 员 和 负责 系统 运 维 的 人 员 的 主要 话题 之 
一 。 在 Hadoop 和 HBase 的 世界 里 ， 谈 论 的 话题 略 有 改变 。 在 传统 系统 
里 ， 执 行 备份 实现 元 余 是 为 了 抵御 系统 故障 《硬件 和 /或 软件 ) 。 故 障 
被 认为 是 系统 之 外 的 东西 ， 但 是 影响 到 系统 的 正常 运转 。 人 例如， 如果 一 
个 关系 型 数据 库 因 为 主机 的 内 存 故 障 而 下 线 ， 这 个 系统 直到 蔡 换 了 内 存 
才 可 以 使 用 。 如 果 硬 盘 骨 演 了 ， 你 很 可 能 会 丢失 部 分 数据 (取决 于 人 硬盘 
如 何 设置 和 使 用 了 多 少 块 硬盘 ) 。 

Hadoop 和 HBase 建 立 在 把 硬件 故障 作为 第 一 优先 级 考虑 因素 的 基础 
上 上 ， 它 们 的 设计 初 囊 就 是 可 以 不 受 单个 节点 故障 的 影响 。 如 果 一 个 
DataNode 或 者 RegionServer 主 机 脱离 集群 ， 集 群 是 不 受 影响 的 。 其 他 主 
机 会 接管 工作 负载 〈 存 储 的 数据 或 者 服务 的 region) ， 然 后 系统 会 继续 
正常 工作 。 今 天 的 整个 Hadoop 体 系 具有 蜗 可 用 性 ， 这 意味 着 系统 内 没有 
让 系统 宕 机 或 者 不 可 用 的 单 点 故障 。 单 个 节点 故障 是 没有 关系 的 ， 但 是 
托管 集群 的 整个 数据 中 心 停 用 会 导致 系统 停 用 ， 因 为 直到 今天 Hadoop 和 
HBase 还 不 能 跨 多 个 数据 中 心 由  。 但 是 ， 如 果 你 的 要 求 是 抵御 这 种 故 
障 ， 你 多 少 需 要 准备 一 种 备份 策略 。 

保持 一 份 独立 数据 副本 可 用 的 另 一 个 原因 是 执行 离线 处 理 任务 。 如 
同 我 们 在 第 9 章 建 议 的 ， 在 同一 个 HBase 集 群 上 并 行 配置 实时 和 批 处 理工 
作 负 载 会 影响 到 服务 这 两 种 访问 模式 场景 的 延迟 和 性 能 〈 和 分 别 独立 运 
行 它们 相 比 ) 。 通 过 在 另 一 个 集群 上 保留 第 二 份 数据 副本 ， 可 以 把 在 线 
访问 模式 和 批 处 理 访问 模式 分 开 ， 从 而 让 两 者 以 最 优化 方式 运行 。 











有 多 种 方法 可 以 实现 备份 或 者 数据 的 第 二 份 副本 ， 每 一 种 都 有 不 同 
的 特点 。 


10.4.1 集群 间 复 制 


复制 作为 一 个 特性 直到 最 近 还 一 直 处 于 试验 状态 ， 只 有 内 行 的 用 户 
在 生产 环境 里 使 用 了 这 个 特性 。 活 跃 的 开发 和 越 来 越 多 的 用 户 需 求 正在 
把 这 个 特性 推 到 一 个 更 稳定 的 状态 。 你 不 一 定 必须 了 解 复制 工作 原理 的 
细节 ， 但 是 如 果 你 计划 在 生产 环境 里 使 用 它 ， 我 们 建议 你 认真 掌握 它 。 

把 数据 从 一 个 集群 复制 到 另 一 个 集群 的 一 种 方法 是 在 往 第 一 个 集群 
写 入 数据 时 复制 写 操作 。 这 是 关系 型 数据 库 里 常见 的 操作 机 制 。HBase 
中 的 集群 间 复 制 可 以 通过 发 送 日 志 记 录 来 实现 ， 可 以 异步 执行 。 这 意味 
着 把 写 入 HLog 的 edits (Put 和 Delete) 记录 发 送 给 并 写 入 作为 复制 目标 的 
第 二 个 集群 ， 从 而 完成 复制 。 第 一 个 集群 的 写 操作 不 会 阻 罕 在 被 复制 的 
edits 上 。 因 为 复制 工作 不 会 影响 写 操 作 发 生 时 的 延迟 ， 它 在 完成 号 操作 
后 异步 发 生 ， 所 以 可 以 跨 数 据 中 心 实现 。 

现在 的 情况 

本 节 里 复制 任务 的 用 法 说 明和 介绍 内 容 对 于 Apache HBase 0.92.1 或 
者 CDH4u0 版 本 来 说 是 正确 的 。 考 虑 到 这 是 一 个 相当 新 的 特性 ， 到 现在 
为 止 还 没有 看 到 在 很 多 生产 环境 里 使 用 它 ， 在 短期 内 仍然 会 有 活跃 的 研 
发 和 新 特性 的 增加 。 我 们 鼓励 你 得 看 所 使 用 版 本 的 发 行 说 明 ， 不 要 一 成 
不 变 地 看 待 我 们 的 介绍 。 

你 可 以 在 创建 表 或 者 更 改 表 时 把 复制 范围 设置 为 1 在 列 族 层 次 来 配 
置 复制 特性 : 


hbase (main) :002:0> create 'mytable', {NAME => 'colfaml', 
REPLICATION SCOPE => '1'} 


该 命令 设置 colfam1 列 族 在 数据 写 入 时 复制 到 第 二 个 集群 。 在 第 二 
个 集群 上 必须 有 相同 的 表 名 和 列 族 名 。 如 果 它 们 不 存在 ，HBase 不 会 创 
建 它们 ， 复 制 会 失败 。 





























集群 间 复 制 有 以 下 3 种 类 型 。 

加 主 从 (master-slave) 一 一 在 这 种 复制 方式 里 ， 所 有 的 写 入 只 写 到 
主 集群 ， 然 后 被 复制 到 从 集群 ， 如 图 10-11 所 示 。 没 有 东西 会 直接 写 到 
第 二 个 集群 的 被 复制 列 族 。HBase 不 强制 要 求 直 接 写 到 被 复制 的 从 集 
群 ， 你 需要 在 应 用 层面 保证 这 一 点 。 如 果 你 错误 地 写 到 了 从 集群 ， 数 据 
不 会 被 复制 回 主 集群 。 从 集群 可 以 拥有 不 是 从 主 集 群 复制 来 的 其 他 表 和 
列 族 。 
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集群 1 集群 2 
图 10-11 主 从 复制 配置 设计 ， 这 里 复制 只 会 单 回 进 行 

四 主 主 (master-master) 在 主 主 复制 方式 里 ， 任 何 一 个 集群 收 
到 的 写 入 都 会 被 复制 到 另 一 个 集群 ， 如 图 10-12 所 示 。 

加 环形 (cyclic) 一 一 在 环形 复制 方式 里 ， 你 可 以 设置 多 于 两 个 的 
集群 来 互相 复制 〈 参 见 图 10-13) 。 任 何 两 个 集群 之 间 的 复制 方式 可 以 
是 主 主 模式 或 者 主 从 模式 。 主 主 复制 方式 可 以 被 看 做 是 只 涉及 两 个 集群 
的 环形 复制 。 
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集群 1 集群 2 
图 10-12 主 主 复制 配置 设计 ， 这 里 复制 双 问 进行 。 任 一 个 集群 上 的 
写 入 会 被 复制 到 另 一 个 集群 上 








图 10-13 环形 复制 设计 ， 这 里 参与 复制 过 程 的 集群 超过 两 个 ， 其 中 
任何 两 个 集群 之 间 的 关系 可 以 是 没有 复制 、 主 从 复制 或 者 主 主 复制 
你 可 以 根据 自己 的 应 用 系统 ， 选 择 效果 最 好 的 那 一 种 复制 模型 。 如 
果 只 是 为 备份 的 目的 或 者 为 了 得 到 第 二 份 副 本 来 执行 批 处 理 ， 主 从 模型 
效果 很 好 。 在 一 些 特殊 场景 里 ， 比 如 你 要 么 想得到 拥有 相同 数据 的 第 三 
个 集群 ， 要 么 想 把 来 日 不 同 源 的 数据 保存 到 不 同 的 表 里 ， 可 以 使 用 主 主 
复制 和 环形 复制 方式 ， 其 最 终 目 的 是 在 所 有 集群 上 保持 完全 相同 的 状 
态 
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1. 配置 集群 间 复 制 

为 了 配置 集群 间 复 制 ， 采 用 下 面 的 步骤 。 

(1) 把 下 面 的 配置 参数 放 进 两 个 集群 的 hbase-site.xml 文 件 里 〈 主 
集群 和 第 二 集群 ) 


<property> 
<name>hbase.replication</name> 
<value>true</value> 
</property> 
把 这 个 配置 信息 放 进 两 个 集群 的 所 有 节点 上 以 后 ， 需 要 重启 HBase 
守护 进程 (RegionServer 和 Master) 。 请 注意 ， 为 了 让 这 个 配置 信息 生 
效 ，ZooKeeper 必须 是 自我 管理 的 。 在 HBase 0.92.1 或 者 CDH4u0 版 本 
里 ，HBase 管理 的 ZooKeeper 还 没有 在 复制 体系 里 被 测试 过 。 
该 设置 使 集群 能 够 参与 复制 体系 。 
(2) 把 第 二 个 集群 添加 到 集群 列表 里 ,日志 记录 会 从 主 集 群发 送 
到 那里 。 你 可 以 在 HBase Shell 里 使 用 add_peer 命令 来 实现 这 一 步 。 句 
法 如 下 : 


add peer '<n>', 
"slave.zZookeeper .quorum: zookeeper.clientport :zookeeper.znode.parent' 


例如 : 


hbase (main) :002:0> add peer ‘1', 
"secondary cluster zookeeper quorum:2181:/hbase" 


该 命令 把 第 二 个 集群 登记 为 为 了 复制 的 目的 需要 把 edits 发 送 到 的 目 
标 地 址 。 

(3) 为 复制 任务 创建 表 。 如 同 前 面 解释 过 的 ， 你 需要 在 列 族 层面 
这 样 做 。 为 了 在 已 有 表 上 打开 复制 配置 ， 需 要 先 关 闭 表 ， 修 改 列 族 的 属 
性 ， 再 重新 打开 表 。 复 制 操作 会 马上 开始 进行 。 

确保 在 两 个 集群 里 存在 同样 的 表 和 列 族 《〈 主 集群 和 目标 从 集群 ) 。 
不 过 ， 复 制 范围 只 在 主 集群 上 被 设置 为 1。 两 个 集群 上 可 以 拥有 不 被 复 





制 的 其 他 表 和 列 族 。 
在 建立 复制 以 后 ， 你 应 该 在 集群 上 运行 任何 负载 之 前 ， 验 证 复制 是 
侣 按照 预期 工作 。 


2. 测试 复制 体系 
测试 复制 是 否 工作 的 最 简单 的 方法 是 在 主 集 群 上 的 表 里 存 入 一 些 








行 ， 然 后 检查 它们 是 否 在 从 集群 上 出 现 。 如 果 数 据 集 特别 大 ， 这 方法 可 
能 是 不 可 行 的 ， 如 果 你 在 生产 集群 上 打开 复制 配置 ， 可 能 就 会 出 现 这 种 
情况 。HBase 随机 提供 了 一 个 叫做 VerifyReplication 的 MapReduce 作 业 ， 
你 可 以 运行 该 作业 来 比较 两 张 表 的 内 容 : 

$ $HBASE HOME/bin/hbase 
org.apache.hadoop.hbase.mapreduce.replication.VerifyReplication 


Usage: verifyrep [--starttime=X] [--stoptime=Y] [--families=A] 
<peerid> <tablename> 





Options: 

starttime beginning of the time range 

without endtime means from starttime to forever 

stoptime end of the time range 

families comma-separated list of families to copy 
Args: 

peerid Id of the peer used for verification, 

must match the one given for replication 

tablename Name of the table to verify 

Examples: 


To verify the data replicated from TestTable for a 1 hour window 
with peer #5 
$ bin/hbase org.apache.hadoop.hbase.mapreduce.replication.VerifyReplication 


starttime=1265875194289 --stoptime=1265878794289 5 TestTable 

但 是 如 果 你 没有 运行 MapReduce 框架 ， 这 个 方法 就 没 法 使 用 。 你 
需要 在 两 个 集群 上 手工 执行 两 张 表 的 扫描 来 确保 一 切 工 作 正常 。 

3. 管理 复制 

复制 配置 在 集群 上 打开 以 后 ， 你 不 需要 做 什么 来 管理 复制 。 为 了 在 
一 个 运行 的 集群 上 停止 复制 ， 你 可 以 在 HBase Shell 里 运行 
stop_replication 命令 。 要 重新 启动 它 ， 可 以 运行 start_replication 命 令 。 

当前 实现 里 的 一 些 特 色 让 一 些 管理 任务 变 得 有 点 儿 复 杂 。 复 制 是 在 
列 族 层 面 处 理 的 ， 在 激活 的 HLog 文件 里 设置 的 。 因 此 如 果 你 停止 复制 
然后 重新 启动 它 ， 并 且 HLog 还 没有 滚动 ， 在 你 停止 和 重新 启动 复制 之 
间 写 入 的 任何 东西 也 会 被 复制 。 这 是 当前 复制 实现 的 一 个 功能 ， 它 可 能 
会 在 将 来 的 版 本 里 发 生变 化 。 

要 删除 一 个 集群 成 员 ， 可 以 使 用 remove_peer 命 令 ， 后面 带 上 成 员 


























hbase> remove Peer '1' 
要 查看 当前 配置 的 成 员 列 表 ， 可 以 使 用 list_peers 命 令 : 
hbase> list peers 

集群 间 复 制 是 一 个 高 级 特性 ， 可 以 轻松 保存 数据 的 多 个 副本 。 维 护 
两 份 数据 的 热 副 本 是 很 棒 的 功能 : 你 的 应 用 系统 在 主 集群 出 问题 的 时 候 
可 以 切换 到 第 二 集群 。 热 故障 切换 机 制 则 需要 内 置 到 应 用 系统 里 。 这 可 
以 纯粹 在 应 用 逻辑 里 建立 ， 或 者 在 主 集群 停 用 时 修改 DNS 让 应 用 系统 
访问 第 二 个 集群 。 当 主 集群 恢复 和 重新 运行 起 来 了 ， 你 可 以 同样 修改 
DNS， 跳 回 到 主 集群 。 

关于 时 间 同 步 的 提示 

为 了 让 复制 正常 工作 ， 主 集群 和 第 二 集群 的 时 间 必 须 是 同步 的 。 如 
同 我 们 前 面 介 绍 的 ， 这 可 以 使 用 NTP 来 实现 。 在 运行 HBase 的 所 有 节点 
上 保持 时 间 同 步 对 于 确保 系统 可 靠 运转 是 至 关 重 要 的 。 

现在 的 问题 是 把 第 二 集群 新 写 入 的 数据 送 回 主 集群 。 这 可 以 使 用 
CopyTable 或 者 Export/Import 作 业 来 实现 ， 这 就 是 接 下 来 我 们 要 讨论 的 内 


容 。 























10.4.2 MapReduce 作 业 进 行 备 份 


如 同 我 们 在 第 3 章 讨 论 过 的 ， 可 以 设置 MapReduce 作 业 把 HBase 表 用 
做 数据 源 和 输出 目标 。 可 以 通过 扫 摘 HBase 表 并 把 数据 输出 到 平面 文件 
或 其 他 表 的 方式 来 执行 某 个 时 间 点 的 备份 ， 这 个 功能 是 很 有 用 的 。 

这 和 上 一 节 介 绍 的 集群 间 复 制 是 不 同 的 。 集 群 间 复制 是 一 种 推 
(push) 机 制 : 当 新 的 edits 进 来 时 ， 它 们 被 推 到 复制 的 集群 上 ， 尽 管 是 
异步 地 。 在 HBase 表 上 运行 MapReduce 作 业 是 一 种 拉 (pul) 机制: 这 种 
作业 从 HBase 表 里 读 出 数据 《也 就 是 说 ， 数 据 被 拉 出 来 ) ， 然 后 写 入 你 
选择 的 输出 目标 。 

你 可 以 通过 几 种 方法 在 HBase 上 使 用 MapReduce 进 行 备份 。HBase 为 











此 随机 附带 了 一 些 预先 打包 的 作业 。 下 面 我 们 来 介绍 如 何 使 用 它们 进行 
备份 。 

1， 导 入 /导出 〈ImporVExport) 

预 打 包 的 导出 MapReduce 作 业 (Export) 可 以 用 来 把 HBase 表 里 的 
数据 导出 到 平面 文件 。 然 后 再 使 用 导入 作业 《〈Import) 把 这 些 数据 导入 
到 同一 个 或 者 另 一 个 集群 上 另 一 个 HBase 表 里 。 

Export 作 业 以 数据 源 表 名 字 和 输出 目录 名 字 作 为 输入 参数 。 你 也 可 
以 提供 时 间 版 本 数量 、 起 始 时 间 戳 、 结 束 时 间 惟 和 过 滤器 等 来 精细 地 控 
制 从 源 表 里 读 出 什么 数据 。 从 表 里 递增 读 取 数 据 时 ， 使 用 起 始 时 间 戳 和 
结束 时 间 惟 是 非常 有 用 的 。 

这 些 数 据 以 Hadoop 序 列 化 文件 的 格式 被 高 效 写 出 到 指定 的 输出 目录 
里 ， 随 后 使 用 导入 作业 把 这 个 目录 下 的 数据 导入 到 另 一 个 HBase 表 里 。 
序列 化 文件 是 有 键 的 ， 每 个 键 值 对 的 格式 是 从 行 键 到 Result 实 例 : 


$ hbase org.apache.hadoop.hbase.mapreduce.Export 
Usage: Export [-D<property=value>]* <tablename> <outputdir> 
[<versions> [<starttime> [<endtime>]] 
[^ [regex pattern] or [Prefix] to filter]] 








Note: -D properties will be applied to the conf used. 

For example: 
-Dmapred.output .compress=true 
-Dmapred.output .compression.codec=org.apache.hadoop.io.compress .GzipCodec 
-Dmapred.output .compression.type=BLOCK 

Additionally, the following SCAN properties can be specified 

to control/limit what is exported.. 
-Dhbase.mapreduce.scan.column.family=<familyName> 


下 面 是 把 mytable 表 导出 到 export_out 目 录 的 一 个 命令 示例 : 


$ hbase org.apache.hadoop.hbase.mapreduce.Export mytable export out 

12/07/10 04:21:29 INFO mapred.JobClient: Default number of map tasks: null 

12/07/10 04:21:29 INFO mapred.JobClient: Setting default number of map tasks 
based on cluster size to : 12 


让 我 们 检查 export_out 目录 的 内 容 。 该 目录 应 该 包含 一 系列 来 自 
map 任务 的 输出 文件 : 


$ hadoop fs -ls export out 
Found 132 items 


-IrIW-r--r-- 2 hadoop supergroup 0 2012-07-10 04:39 /user/hadoop/ 
export out/_SUCCESS 
-IrW-r--r-- 2 hadoop supergroup 441328058 2012-07-10 04:21 /user/hadoop/ 


export out/part-m-00000 


-rW-r--r-- 2 hadoop supergroup 470805179 2012-07-10 04:22 /user/hadoop/ 
export out/part-m-00001 


-rW-r--r-- 2 hadoop supergroup 536946759 2012-07-10 04:27 /user/hadoop/ 
export out/part-m-00130 


Import 作 业 是 Export 作 业 的 反 向 处 理 。Import 作 业 从 源 文件 里 读 出 记 
录 ， 根 据 保存 的 Result 实例 创建 Put 实例 。 然 后 把 这 些 Put 通过 HTable 
API 写 到 目标 表 。Import 作业 在 执行 时 不 提供 花样 繁多 的 过 滤 或 者 数据 
控制 功能 。 如 果 想 进行 额外 的 控制 ， 你 需要 建立 Importer 实 现 的 子 类 并 
且 窗 新 map 函 数 。 这 个 工具 很 简单 ， 它 的 调用 也 很 镜 单 : 
$ hbase org.apache.hadoop.hbase.mapreduce.Import 
Usage: Import <tablename> <inputdir> 


把 前 面 例子 里 导出 的 表 导 入 男 一 个 叫做 myimporttable 的 表 的 命令 如 





下 : 


$ hbase org.apache.hadoop.hbase.mapreduce.Import myimporttable export out 


作业 完成 后 ， 你 的 目标 表 里 保存 了 导出 的 数据 。 

2. 使 用 ImportTsv 的 高 级 导入 方式 

Import 与 Export 相 辅 相 成 ， 但 有 些 简单 ，ImportTsv 的 功能 则 非常 丰 
富 。 它 文 持 你 从 有 换行 符 的 市 分 隔 符 文 本 文件 加 载 数据 。 最 第 见 的 是 以 
制 表 符 为 分 隔 符 ， 但 分 隔 符 是 可 以 设置 的 〈 如 加 载 以 逗号 为 分 隔 符 的 文 
件 ) 。 你 可 以 指定 一 个 目标 表 ， 然 后 提供 从 数据 文件 里 的 列 到 HBase 里 
的 列 的 对 应 关系 : 

















$ hbase org.apache.hadoop.hbase.mapreduce.ImportTsV 
Usage: importtsv -Dimporttsv.columns=a,b,c <tablename> <inputdir> 


Imports the given input directory of TSV data into the specified table. 


The column names of the TSV data must be specified using the 
-Dimporttsv.columns option. This option takes the form of 
comma-separated column names, where each column name is either a 
simple column family, or a columnfamily:qualifier. The Special column 
name HBASE ROW KEY is used to designate that this column should be 
used as the row key for each imported record. You must specify exactly 
one column to be the row key, and you must specify a column name for 
every column that exists in the input data. 


By default importtsv will load data directly into HBase. To instead 
generate HFiles of data to prepare for a bulk data load, pass the 
option: 

-Dimporttsv.bulk.output=/path/for/output 

Note: if you do not use this option, then the target table must 
already exist in HBase 


Other options that may be specified with -D include: 

-Dimporttsv.skip.bad.lines=false - fail if encountering an invalid 
line '-Dimporttsv.separator=|' - eg separate on pipes instead of 
tabs 

-Dimporttsv.timestamp=currentTimeAsLong - use the specified 
timestamp for the import 

-Dimporttsv.mapper.class=my.Mapper - A user-defined Mapper to use 

instead of org.apache.hadoop.hbase.mapreduce.TsvIimporterMapper 


这 个 作业 的 目标 是 成 为 一 个 灵活 的 工具 ， 它 甚至 允许 你 窟 新 Mapper 
类 在 解析 输入 文件 时 会 用 到 这 个 类 ) 。 你 还 可 以 用 ImportTsv 创 建 
HFile 而 不 是 在 目标 部 署 上 执行 Put。 这 被 称 为 批量 导入 《bulk 
import) 。 它 绕 过 了 HTable API， 比 常规 的 导入 快 得 多 。ImportTsv 确实 
需要 在 运行 时 访问 目标 表 。ImportTsv 会 检查 表 的 region 边界 ， 并 且 使 
用 这 些 拆 分 定 界 符 来 决定 创建 多 少 个 HFile。 

在 HFile 被 创建 后 ， 需 要 把 它们 加 载 到 表 里 。LoadIncrementalHFiles 
实用 工具 〈 也 叫做 completebulkload) 用 来 处 理 在 HBase 中 安装 和 激活 一 
张 表 的 新 HFile 的 复杂 工作 。 因 为 这 种 操作 需要 认真 考虑 以 确保 新 的 
HFile 可 以 匹配 目标 表 的 配置 ， 所 以 它 是 很 复杂 的 工作 。 
LoadIncrementalHFiles 工 具 为 你 处 理 这 些 工 作 ， 它 可 以 拆 分 任意 一 个 源 








HFile 以 便 每 一 个 HFile 适合 单个 region 的 键 范围 。 这 些 HFile 被 移动 
(move) 到 位 ， 而 不 是 复制 (copy) ， 所 以 在 你 运行 该 命令 后 源 数据 消 
失 了 ， 不 要 感到 惊讶 。 针 对 在 HDFS 上 阶段 性 出 现 的 HFile， 运 行 该 工具 
如 下 所 示 : 


$ hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles 
usage: completebulkload /path/to/hfileoutputformat-output tablename 


让 我 们 创建 一 张 预 拆 分 表 ， 然 后 批量 加 载 一 个 制 表 符 分 隔 的 文件 到 
表 里 : 
(1) 创建 一 张 拆 分 为 10 个 region 的 预 拆 分 表 : 


$ E07 4 LN {leel0l;, a echo Si »>»> Splite, tt » done 
9 eat plitatxt 
1 
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$ Hadoop £8 -put SpLlits .txt 
$ echo "create 'bulk import', 'a', {SPLITS FILE => 'splits.txt'}" | \ 
hbase shell 


0 row(s) in 2.3710 seconds 


(2) 往 这 张 表 里 导入 制 表 符 分 隔 的 文件 。 你 可 以 使 用 文件 里 的 第 
三 列 作为 HBase 表 的 行 键 。 输 入 的 制 表 符 分 隔 的 文件 是 my_input file， 
创建 的 HFile 将 被 存储 在 输出 目录 hfile_outpnut: 


$ hbase org.apache.hadoop.hbase.mapreduce.ImportTsv \ 
Dimporttsv.columns=a:lon,a:lat,HBASE ROW KEY,a:name,a:address,a:ci 
ty,a:url \ 
-Dimporttsv.bulk.output=hfile output bulk import ./my input file 
12/07/10 05:48:53 INFO util.NativeCodeLoader: Loaded the native-hadoop 
library 





(3) 通过 把 新 创建 的 HFile 转 移 到 预 拆 分 表 里 来 完成 批量 加 载 : 


$ hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles 
hfile output my bulk import table 


3. Copy Table 

你 可 以 使 用 CopyTable MapReduce 作业 来 扫描 一 张 HBase 表 并 直接 
写 入 另 一 张 表 。 它 不 会 创建 中 间 的 平面 文件 ， 而 是 直接 执行 Pat， 复 制 
到 输出 目标 表 。CopyTable 作 业 的 输出 目标 表 可 能 是 同一 个 集群 上 的 另 
一 张 表 ， 也 可 能 是 完全 不 同 集群 上 的 一 张 表 。 该 作业 也 可 以 像 Export 
作业 一 样 被 赋予 起 始 时 间 惟 和 结束 时 间 戳 ， 这 文 持 更 精细 地 控制 数据 的 
读 取 。 它 也 支持 输入 源 和 输出 目标 HBase 部 著 不 同 的 情况 ， 也 束 是 说 ， 
可 以 用 不 同 的 RegionServer 实 现 。 

执行 CopyTable 作 业 的 过 程 包 括 在 输入 源 部 署 上 执行 一 个 
MapReduce 作 业 并 把 数据 复制 到 输出 目标 部 署 上 。 其 调用 如 下 上 所 示 : 


$ hbase org.apache.hadoop .hbase.mapreduce .CopyTab1le 





Usage: CopyTable [--rs.class=CLASS] [--rs.impl=IMPL] [--starttime=X] 
[--endtime=Y] [--new.name=NEW] [--peer.adr=ADR] 
<tablename> 

Options: 

rs.class hbase.regionserver.class of the peer cluster 
specify if different from current cluster 
rs.impl hbase.regionserver.impl of the peer cluster 
starttime beginning of the time range 
without endtime means from starttime to forever 
endtime end of the time range 
new.name new table's name 
peer.adr Address of the peer cluster given in the format 
Zookeeer .quorum: zookeeper .client .port:zookeeper.znode.parent 
families comma-separated list of families to copy 


To copy from cf1 to cf2, give sourceCfName:destCfName. 
TO keep the same name, just give "cfName" 


Args: 
tablename Name of the table to copy 


从 一 个 集群 把 mytable 表 复制 到 为 一 个 远程 集群 上 拥有 相同 名 子 的 


表 的 命令 示例 如 下 : 
$ hbase org.apache.hadoop.hbase.mapreduce.CopyTable \ 
--peer.adr=destination-zk:2181:/hbase --families=a mytable 


10.4.3 备份 根 目录 


HBase 把 它 的 数据 存储 在 由 hbase.rootdir 配 置 属 性 指定 的 目录 里 。 该 
目录 包含 所 有 region 的 信息 、 所 有 表 的 HFile 信 息 及 所 有 RegionServer 的 
预 写 日 志 (WAL) 。 本 质 上 ， 这 是 保存 所 有 东西 的 地 方 ， 但 是 并 不 需 
要 采用 一 个 重要 的 备份 方案 来 复制 这 个 目录 《使 用 distcp ) ， 无 其 是 在 
运行 的 集群 里 。 

当 一 个 HBase 集 群 启动 并 运行 时 ， 几 件 事情 一 直 在 进行 :; MemStore 
刷 写 ，region 拆 分 、 合 并 等 。 所 有 这 些 事情 会 导致 底层 存储 的 数据 发 生 
改变 ， 这 使 得 复制 HBase 根 目 录 变 得 无 关 紧 要 。 男 一 个 重要 因素 是 ， 在 
运行 的 系统 里 MemStore 里 保存 着 还 没有 刷 写 的 数据 。 即 使 没有 发 生 其 
他 事情 ，HBase 根 目录 的 副本 也 不 一 定 可 以 完全 代表 系统 的 当前 状态 。 

但 是 如 果 你 彻底 停止 了 HBase 守护 进程 ，MemStore 被 刷 写 了 ， 并 
且 根 目录 不 会 被 任何 进程 更 改 了 。 此 时 ， 复 制 整个 根 目 录 可 能 是 一 个 好 
的 时 间 点 备份 方案 。 但 是 增 量 备份 仍然 是 个 问题 ， 这 使 得 这 个 方案 缺少 
可 行 性 。 如 果 需 要 从 备份 的 根 目 录 里 进行 恢复 则 非常 简单 ， 让 HBase 指 
癌 这 个 新 的 根 目录 ， 然 后 启动 HBase 就 可 以 了 。 


10.5 小 结 
































任何 软件 系统 的 生产 级 别 运 维 都 需要 随 厦 时 间 慢 慢 和 掌握。 本 章 介绍 
了 在 生产 环境 运营 HBase 的 几 个 方面 内 容 ， 和 希望 你 开始 掌握 这 些 概念 。 
HBase 用 户 可 能 会 基于 这 些 概念 开发 出 新 的 工具 和 脚本 ， 你 会 从 中 受 
蔓 。 这 些 基本 的 HBase 运 维 概念 会 帮助 你 理解 什么 时 间 、 什 么 地 方 和 如 
何 使 用 它们 对 你 有 利 。 

运 维 的 第 一 步 是 选择 工具 和 监控 集群 系统 ， 这 是 本 章 开 始 的 地 方 。 
我 们 研究 了 各 种 监控 系统 和 机 制 ， 然 后 研究 让 人 感 兴趣 的 不 同 监控 指 
标 。 先 是 一 些 通用 监控 指标 ， 它 们 是 无 论 系 统 上 运行 什么 负载 都 应 该 监 
控 的 监控 指标 ， 然 后 是 一 些 专门 针对 某 种 工作 负载 《〈 读 或 者 写 ) 的 监控 











指标 。 
监控 部 分 之 后 ， 本 章 转 而 讨论 性 能 测试 、 性 能 评估 和 针对 不 同 种 类 
nie A EE 测试 是 了 解 如 何 优化 HBase 集群 
I 怎么 做 让 集群 性 能 表现 最 佳 的 关键 。 优 化 HBase 的 性 能 涉及 如 何 使 用 
和 取决 于 计划 使 用 集群 的 工作 负载 的 类 
随后 ， 我 们 研究 了 一 系列 常见 管 a 时 候 使 用 它 
们 。 其 中 一 些 是 被 执行 得 更 为 频繁 的 常见 管理 任务 ， 而 其 他 的 任务 则 是 
更 有 针对 性 地 处 理 某 些 情况 。 最 后 ， ee 略 ， 讨 论 





了 灾难 恢复 时 的 第 见 做 法 以 及 当前 你 有 什么 选择 。 

精通 HBase 的 运 维 需要 了 解 其 内 部 工作 机 制 ， 以 及 使 用 该 系统 获得 
的 经 验 。 我 们 都 希望 HBase 是 一 种 自我 优化 和 上 自我 管理 的 系统 ， 但 它 还 
不 是 。 我 们 希望 它 尽快 成 为 那样 的 系统 ， 你 的 经 验 无 颖 可 以 为 这 个 目标 
添砖加瓦 。 
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| 录 A 探索 HBase 系 乡 





在 阅读 本 书 的 过 程 中 ， 你 学 习 了 一 些 关 于 HBase 是 如 何 设计 的 以 及 
HBase 如 何 横 跨 不 同 的 服务 器 分 布 负载 的 理论 。 让 我 们 深入 系统 ， 探 索 
一 下 这 些 理论 是 如 何 实际 工作 的 。 痛 先 ， 我 们 会 看 看 ZooKeeper 是 如 何 
管理 HBase 实 例 的 。 当 HBase 以 单机 模式 运行 时 ，ZooKeeper 与 HBase 
Master 运行 在 同一 个 JVM 中 。 在 第 9 章 ， 我 们 学 习 了 HBase 的 完全 分 布 
式 部 署 ， 在 那里 ZooKeeper 作 为 单独 的 服务 运行 。 现 在 ， 让 我 们 测试 各 
个 命令 ， 看 看 对 于 你 的 部 署 ，ZooKeeper 可 以 给 出 什么 信息 。 

A.1 探索 ZooKeeper 

直接 访问 ZooKeeper 的 主要 接口 是 HBase Shell。 启 动 HBase Shell， 


运行 zk_dump 命 令 。 





输出 ZooKeeper 记 


三 办 1 So Lr md Ee Es 

es De 显示 该 HBase 安装 ne 

装 的 信息 的 父 zpode 显示 当前 一 切 都 以 单 
hbase (main) :007:0> zk dump 一 机 模式 运行 在 本 机 上 ， 
HBase is rooted at /hbase < 包括 HBase master 


Active master address: localhost,37150,1332994662074 


为 -ROOT- 表 
Backup master addresses: 提供 服务 的 
pa 林口 


Region server holding ROOT: localhost,41893,1332994662888 RegionServer 


Region servers: 


localhost,41893,1332994662888 ZooKeeper 保存 组 成 集群 的 Region 


Quorum Server Statistics: 4 Server 列表 。 当 RegionServer 上 线 
localhost:2181 时 会 到 ZooKeeper 里 登记 
本 例 中 ZooKeeper quorum 


只 有 一 个 节点 ,就 是 本 机 


Zookeeper version: 3.4.3-1240972, built on 02/06/2012 10:48 GMT 
Clients: 


”我 们 再 来 看 一 下 完全 分 布 式 HBase 系 统 运行 zk_dump 的 例子 。 我 们 
列 出 一 个 运行 中 集群 的 输出 信息 ， 这 里 隐藏 了 主机 名 。 粗 体 显示 的 部 分 
与 上 面 提 到 的 类 似 : 


hbase (main) :030:0> > zk dump 
HBase is rooted at /hbase 
Master address: 01.mydomain.com:60000 
Region server holding ROOT: 06.mydomain.com:60020 
Region servers: 
06.mydomain.com:60020 
04.mydomain.com:60020 
02.mydomain.com:60020 
05.mydomain.com:60020 
03.mydomain.com:60020 
Quorum Server Statistics: 
03.mydomain.com:2181 
Zookeeper version: 3.3.4-cdh3u3--1, built on 01/26/2012 20:09 GMT 
Clients: 


02.mydomain.com:2181 
Zookeeper version: 3.3.4-cdh3u3--1, built on 01/26/2012 20:09 GMT 
Clients: 


01.mydomain.com:2181 
Zookeeper version: 3.3.4-cdh3u3--1, built on 01/26/2012 20:09 GMT 
Clients: 


如 果 你 可 以 访问 某 个 集群 ， 请 在 Shell 里 运行 命令 ， 看 看 ZooKeeper 
可 以 告诉 你 关于 系统 的 哪些 信息 。 当 你 要 了 解 系统 的 状态 时 ， 这 些 信息 
会 非常 有 用 一 一 集群 中 有 哪些 机 器 ， 每 台 机 器 的 角色 ， 以 及 最 重要 的 ， 
哪 台 机 器 为 -ROOT- 表 提供 服务 。HBase 客户 端 应 用 需要 所 有 这 些 信息 
来 执行 读 写 操作 。 请 注意 ， 在 这 个 过 程 中 我 们 并 不 需要 为 此 编写 应 用 代 
码 ， 客 户 端 库 会 帮 你 处 理 所 有 这 一 切 。 

客户 端 自动 处 理 与 ZooKeeper 的 通信 ， 并 获取 要 访问 的 相关 
RegionServer。 让 我 们 继续 了 解 -ROOT- 和 .META. 表 ， 更 好 地 理解 它们 
包含 什么 信息 ， 以 及 客户 端 如 何 使 用 这 些 信 息 。 

A.2 探索 -ROOT-- 

让 我 们 看 看 一 直 为 TwitBase 使 用 的 单机 HBase 实 例 ， 下 面 是 该 单机 
实例 的 -ROOT- 表 信息 : 








hbase (main) :030:0> Scan ! -ROOT-'! 


ROW COLUMN+CELL 

.META.,, column=info:regioninfo, timestamp=1335465653682, 

1 value={NAME = 2 META, dd, SIARTKEY SS "F, .BNDKEY 
=> '', ENCODED => 1028785192,} 

.META.,, Column=info:server, timestamp=1335465662307, 

1 value=localhost:58269 

.META.,, column=info:serverstartcode, 

1 timestamp=1335465662307, value=1335465653436 

.META.,, Ccolumn=info:v, timestamp=1335465653682, 

1 value=\x00\x00 


1 row(s) in 5.4620 seconds 


让 我 们 检查 一 下 -ROOT- 表 的 内 容 。-ROOT- 表 存储 了 关于 .META. 表 
的 相关 信息 。 当 客户 端 需要 定位 HBase 中 存储 的 数据 时 ， 它 查找 的 第 一 
个 地 方 是 -ROOT- 表 。 在 这 个 例子 中 ，-ROOT- 表 中 只 有 一 行 ， 该 行 对 应 
全 部 .META. 表 。 束 像 用 户 定义 的 表 一 样 ， 当 存储 数据 量 超 过 单个 region 
容量 时 ，.META. 表 也 会 进行 拆 分 。 但 与 用 户 定义 的 表 不 同 的 
是 ，.META. 表 中 存储 的 是 HBase 中 用 户 表 的 region 的 信息 ， 这 意味 
着 .META. 表 完全 由 系统 进行 管理 。 在 这 个 例子 中 ，.META. 表 里 使 用 一 
个 region 就 可 以 存储 所 有 信息 。-ROOT- 表 中 对 应 的 记录 包含 根 
据 .META. 表 名 定义 的 行 键 和 那个 region 的 起 始 键 。 因 为 只 有 一 个 
region， 上 所 以 记录 里 那个 region 的 起 始 键 和 结束 键 都 是 空 的 。 这 表示 那个 
region 托 管 全 体 键 区 间 。 

A.3 探索 .META. 

前 面 -ROOT- 表 中 的 记录 还 会 告诉 我 们 哪 台 机 器 托管 .META. 表 对 应 
的 region。 本 例 中 ， 因 为 HBase 以 单机 模式 运行 ， 所 有 的 内 容 都 在 本 机 
Clocalhost) 上 ， 所 以 可 以 看 到 有 一 列 〈server 列 ) 的 值 是 
localhost:port。 还 有 一 列 (regioninfo 列 ) 包含 了 region 的 名 字 起 始 键 、 








结束 键 、 以 及 编码 后 的 名 字 。《 编 码 后 的 名 字 供 系统 内 部 使 用 ， 对 我 们 
而 言 并 不 重要 。) 当 你 在 应 用 代码 中 执行 操作 时 ，HBase 客 户 端 库 使 用 
所 有 这 些 信 息 来 准确 定位 需要 联系 的 region。 如 采 系 统 中 没有 其 他 


表 ，.META. 表 显示 如 下 : 
hbase (main) :030:0> Scan ' .META.'! 
ROW COLUMN+CELL 
0 row(s) in 5.4180 seconds 
请 注意 ，.META. 表 是 空 的 。 这 是 因为 HBase 中 还 没有 用 户 定义 的 


表 。 创 建 users 表 的 实例 后 ，.META. 表 显示 如 下 : 


hbase (main) :030:0> Scan '.META.'!' 





ROW COLUMN+CELL 


users,,1335466383956.4al column=info:regioninfo, 
5eba38d58dqb711elc7693581 timestamp=1335466384006, value={NAME => 


Af7EE: iusers,,1335466383956.4alS5Seba38d58 
di71ilelernaoeoLaryl. YY STARTKEY 3 7 
ENDKEY =s '', ENCODED: 三 > 


4al5Seba38d58db711le1c7693581af7f1,} 


users,,1335466383956.4al column=info:server, timestamp=1335466384045, 
Seba38d58db71llelc7693581 value=localhost:58269 
fTE1., 


users,,1335466383956.4al column=info:serverstartcode, 
Seba38d58db71llelc7693581 timestamp=1335466384045, value=1335465653436 
E77 


1 row(s) in 0.4540 seconds 


在 当前 环境 中 ，.META. 中 的 信息 大 概 就 是 这 个 样子 ， 如 果 你 想 多 
些 尝试， 可 以 禁用 〈disable) 和 删除 〈delete) users 表 ， 然 后 查 
看 .META. 的 信息 ， 之 后 再 重新 创建 users 表 。 和 创建 表 的 操作 一 样 ， 禁 
用 和 删除 操作 也 可 以 在 HBase Shell 中 完成 。 

与 在 -ROOT- 中 看 到 的 类 似 ，.META. 包 含 了 users 表 以 及 系统 中 其 他 
表 的 信息 。 在 这 里 记录 了 你 创建 的 所 有 表 的 信息 ，.META. 的 结构 与 - 
ROOT- 的 类 似 。 

在 你 创建 TwitBase 的 users 表 实 例 并 检查 .META. 表 的 信息 后 ， 可 以 


使 用 示例 应 用 代码 中 的 LoadUsers 命 令 添 加 一 些 用 户 信 息 。 当 users 表 的 
数据 增长 超过 单个 region 的 容量 后 ， 那 个 region 会 进行 拆 分 。 你 也 可 以 
手动 对 表 进 行 拆 分 ， 我 们 现在 实验 一 下 : 


hbase (main) :030:0> split 'users' 
0 row(s) in 6.1650 seconds 


hbase (main) :030:0> Scan '.META.!' 


ROW COLUMN+CELL 


users,,1335466383956 .4al5eba 
38d58db711elc7693581af7fl . 


Users,,，1335466383956.4al5eba 
38dq58db711elc7693581af7f1l . 


users, ,1335466383956.4al5eba 
38d58db711elc7693581af7fl . 


users,,1335466383956 .4al5eba 
38d58dqb711elc7693581af7f1 . 


users, ,1335466383956 .4al5eba 
38d58db71lelc7693581laf7f1. 


users,,1335466889926.9fd558e 
d44a63f016c0a99c4cf141lebs5. 


users,,1335466889926.9fd558e 
d44a63f016c0a99c4cf141lebs5s. 


users, ,1335466889926.9fd558e 
d44a63f016c0a99c4cf141leb5. 


Column=info:regioninfo, 
timestamp=1335466889942, value={NAME => 
'users,,1335466383956.4al5Seba38d58db711le 
1c7693581laf7f1i.', STARTKEY => '', ENDKEY 
=> '', ENCODED => 
4al5eba38d58db711elc7693581af7fl， 
OFFLINE => true, SPLIT => true,} 


column=info:server, 

timestamp=1335466384045, 

value=localhost:58269 
column=info:serverstartcode, 
timestamp=1335466384045, 
value=1335465653436 


columm=info:splitAa, 
timestamp=1335466889942, value= 

{NAME => 

'uUsers, ,1335466889926 .9fd558ed44a63f016 
CcOa99c4cfli4leb5.', STARTKEY => !1， 
ENDKEY => '}7\ 
XB8E\XC3\xD1\xE3\xOF\x0D\xE9\xFE'fIK\xB7\ 
xD6', ENCODED => 
9fd558ed44a63f016c0a99c4cf141eb5,} 


column=info: splitB, 
timestamp=1335466889942, value={NAME => 
'users, }7\x8E\xC3\xD1\xE3\x0F\ 
XOD\xE9\xFE'fIK\xB7\xD6,1335466889926 .a3 
c3a91l62eeeb8abc0358e9e31b892e6.',， 
STARTKEY => '}7\x8E\ 
XC3\xD1\xE3\x0F\xO0D\xE9\xFE'fIK\xB7\xD6' 
, ENDKEY => '', ENCODED => 
a3c3a9162eeeb8abc0358 

e9e31b892e6,} 


column=info:regioninfo, 
timestamp=1335466889968, value={NAME => 
'users, ,1335466889926.9fd558ed44a63f016c 
0a99c4cf141eb5.', STARTKEY => '', ENDKEY 
=> '}7\x8E\xC3\ 
XxD1\xE3\x0OF\x0D\xE9\xFE'fIK\xB7\xD6', 
ENCODED => 
9fd558ed44a63f016c0a99c4cf1l41leb5,} 


column=info: server, 
timestamp=1335466889968， 
value=localhost:58269 


column=info:serverstartcode, 
timestamp=1335466889968,， 
value=1335465653436 


users, }7\x8E\xC3\xD1\xE3\xOF 
\XOD\xE9\xFE'fIK\xB7\xD6, 133 
5466889926.a3c3a9162eeeb8abc 
0358e9e31b892e6 . 


users, }7\x8E\xC3\xD1\xE3\xOF 
\XOD\xE9\xFE'fIK\xB7\xD6,133 
5466889926 .a3c3a9162eeeb8abc 
0358e9e31b892e6 . 


users, }7\x8E\xC3\xD1\xE3\xOF 
\XOD\xE9\xFE'fIK\xB7\xD6, 133 
5466889926 .a3c3a9162eeeb8abc 
0358e9e31b892e6 . 


3 row(s) in 0.5660 seconds 


column=info:regioninfo, 
timestamp=1335466889966, value={NAME => 
!'uUsers, }7\x8E\xC3\xD1\xE3\x0F\x0D\xE9\xF 
E'fIK\xB7\xD6,1335466889926 .a3c3a9162eee 
b8abc0358e9e31b892e6.', STARTKEY => 
1'}7\x8E\xC3\xD1\xE3\x0F\ 
XOD\xE9\xFE'fIK\xB7\xD6', 
ENCODED => 
a3c3a9162eeeb8abc0358e9e31b892e6,} 
column=info: server, 
timestamp=1335466889966, 
value=localhost:58269 


ENDKEY => '',， 


column=info:serverstartcode, 
timestamp=1335466889966, 
value=1335465653436 


当 你 对 users 表 进行 拆 分 后 ，.META. 表 里 会 出 现 关 于 子 region 的 新 记 
录 。 这 些 子 region 会 蔡 换 被 拆 分 的 父 region。 父 region 的 记录 包含 拆 分 的 


主 自 


百 vC， 


并 且 不 再 服务 客户 问 请 求 。 短 时 间 内 父 region 的 信息 会 保留 


在 .META. 表 里 。 当 托管 的 RegionServer 完成 拆 分 并 清除 父 region 后 ， 父 


region 的 记录 会 从 .META. 表 里 删除 。 


完成 拆 分 后 ，.META. 表 如 下 所 示 : 


hbase (main) :030:0> Scan ! .METRA. 


ROW 


users,,1335466889926.9fd558e 
d44a63f016c0a99c4cf141leb5. 


users,,1335466889926.9fd558e 
d44a63f016c0a99c4cf14leb5. 


users,,1335466889926.9fd558e 
dq44a63f016c0a99c4cf141eb5 . 


users, }7\x8E\xC3\xD1\xE3\xOF 
\XOD\xE9\xFE'fIK\xB7\xD6,133 
5466889926.a3c3a9162eeeb8abc 
0358e9e31b892e6 . 


users, }7\x8E\xC3\xD1\xE3\xOF 
\XOD\xXE9\xFE'fIK\xB7\xD6,133 
5466889926 .a3c3a9162eeeb8abc 
0358e9e31b892e6 


users,}7\x8E\xC3\xD1\xE3\xOF 
\XOD\xE9\xFE'fIK\xB7\xD6,133 
5466889926.a3c3a9162eeeb8abc 
0358e9e31b892e6 . 


COLUMN+CELL 


column=info:regioninfo, 
timestamp=1335466889968, value={NAME => 
iusers,,1335466889926.9fd558ed44a63f016c 
0a99c4cf141leb5.', STARTKEY => '', ENDKEY 
三 工人 NENRCEAN 
XD1\xE3\xOF\x0D\xE9\xFE'fIK\xB7\xD6', 
ENCODED => 
9fd558ed44a63f016c0a99c4cf141leb5,} 


column=info:server, 
timestamp=1335466889968,， 
value=localhost:58269 


column=info:serverstartcode, 
timestamp=1335466889968,， 
value=1335465653436 


column=info:regioninfo, 
timestamp=1335466889966, value={NAME => 
users, }7\x8E\xC3\xD1\xE3\x0F\x0D\xE9\xF 


E'fIK\xB7\xD6,1335466889926.a3c3a9162eee 
b8abc0358e9e31b892e6.', STARTKEY => 


'}7\x8E\xC3\xD1\xE3\ 
XOF\XO0D\xE9\xFE'fIK\xB7\xD6', 
1 ENCODED => 
a3c3a9162eeeb8abc0358e9e31b892e6,} 
column=info: server, 
timestamp=1335466889966, 
value=localhost:58269 


ENDKEY => 


column=info:serverstartcode, 
timestamp=1335466889966, 
Value=1335465653436 





2 row(s) in 0.4890 seconds 


你 可 能 想 知 道 ， 为 什么 起 始 键 和 结束 键 的 值 非常 长 并 且 有 些 奇 怪 ， 
不 像 是 应 该 放 入 记录 里 的 东西 。 这 是 因为 你 看 到 的 值 是 对 输入 的 字符 串 


进行 字 市 编码 处 理 后 的 版 本 。 


让 我 们 回顾 一 下 客户 端 应 用 与 HBase 进行 交互 的 过 程 。 客 户 端 应 用 
发 起 get()、put()、 或 scan0 命 令 。 为 了 执行 这 些 操作 ，HBase 客 户 端 库 需 





要 准确 找到 为 这 些 请 求 提 供 服务 的 region 服 务 器 。 这 个 寻 址 过 程 首 先 联 
系 Zoo Keeper， 从 这 里 找到 -ROOT- 表 的 位 置 。 然 后 联系 托管 -ROOT- 表 
的 服务 占 ， 从 -ROOT- 表 里 读 出 指 疝 .META. region 的 相关 记录 ， 
该 .META. region 包 含 最 终 需 要 访问 的 那 张 用 户 表 的 特定 的 region 信息 
一 旦 客户 端 库 得 到 托管 服务 器 的 位 置 和 region 的 名 字 ， 它 就 用 这 i 
言 妨 联系 RegionServer， 请 求 提供 服务 。 

这 些 就 是 让 HBase 横 跨 集群 分 布 数据 ， 并 且 为 任何 客户 端的 服务 请 
求 查 找 相关 机 器 的 各 个 步 又 。 








附 孙 也 更 多 关于 HDFS 的 工 
作 原 理 


Hadoop 分 布 式 文件 系统 “HDFS) 是 运行 HBase 最 常见 的 底层 分 布 
式 文件 系统 。HBase 的 许多 特性 依赖 于 HDFS 来 正常 工作 。 因 此 ， 理 解 
HDFS 如 何 工 作 是 很 重要 的 。 要 理解 HDFS 的 内 部 工作 原理 ， 首 先 要 理解 
什么 是 分 布 式 文件 系统 。 

一 般 来 说 ， 讲 解 分 布 式 文件 系统 内 部 工作 机 制 的 概念 需要 整个 学 期 
的 研究 生 课 程 。 但 是 在 本 附录 里 ， 我 们 只 是 简略 介绍 概念 ， 然 后 讨论 你 
需要 知道 的 那些 HDFS 的 细节 。 

B.1 分 布 式 文件 系统 

传统 上 ， 一 台 计 算 机 在 指定 的 应 用 程序 里 能 够 应 对 人 们 想 存 储 和 处 
理 的 数据 量 。 这 样 的 计算 机 可 能 有 多 个 硬盘， 可 以 满足 大 部 分 情况 的 圳 
要 一 一 直到 最 近 爆 炸 性 的 数据 增长 之 前 。 但 是 数据 越 来 越 多 ， 超 越 了 一 
台 计 算 机 的 存储 和 处 理 能 力 ， 我 们 需要 以 某 种 方式 组 合 多 台 计 算 机 的 能 
力 来 解决 新 的 存储 和 计算 问题 。 在 这 种 系统 里 ， 多 台 计 算 机 联网 协同 工 
作 〈 有 时 也 称 为 一 个 集群 ) 就 像 单 台 系统 一 样 解决 某 种 问题 ， 我 们 称 之 
为 分 布 式 系统 。 正 如 名 字 所 暗示 的 ， 计 算 工 作 是 分 布 在 多 台 计 算 机 上 进 
行 的 。 

分 布 式 文件 系统 是 分 布 式 系统 的 一 个 子 集 。 它 们 解决 的 问题 是 数据 
存储 。 换 句 话 说， 它们 是 横 跨 在 多 台 计 算 机 上 的 存储 系统 。 

提示 存储 在 这 种 文件 系统 上 的 数据 自动 分 布 在 不 同 的 节点 上 : 你 
不 必 担 心 需 要 人 工 决 定 哪 些 数据 存放 在 哪个 节点 。 如 有 果 你 有 兴趣 了 解 更 




















多 HDFS 的 存储 策略 ， 最 好 的 学 习 方 法 是 深入 研究 HDFS 的 源 代 码 。 

分 布 式 文件 系统 为 存储 和 处 理 来 自 网 络 和 其 他 地 方 的 超大 规模 数据 
提供 所 需要 的 扩展 能 力 。 因 为 集群 里 活动 零 部 件数 量 的 增多 会 导致 故障 
状态 增多 ， 提 供 这 样 的 扩展 能 力 是 一 个 挑战 。 在 大 规模 分 布 式 系统 里 ， 
故障 是 常态 ， 这 一 点 必须 在 设计 系统 时 考虑 进去 。 

下 面 几 节 我 们 将 研究 设计 分 布 式 文件 系统 所 面临 的 挑战 ， 以 及 
HDFS 是 如 何 解 决 它们 的 。 特 别 是 ， 你 将 学 习 HDFS 如 何 通过 分 离 元 数据 
和 文件 内 容 来 实现 扩展 能 力 。 然 后 ， 我 们 将 通过 深入 研究 HDFS 的 读 写 
过 程 细 节 来 解释 HDFS 的 一 致 性 模型 ， 随 后 讨论 HDFS 如 何 处 理 各 种 故障 
情况 。 最 后 我 们 将 研究 如 何 把 文件 切 分 和 存储 在 构成 HDFS 的 多 个 节点 
es 

下 面 让 我 们 开始 讨论 HDFS 的 主要 组 件 一 一 NameNode 和 
DataNode， 并 学 习 怎 样 通过 分 离 元 数据 和 数据 来 实现 扩展 能 

B.2 分 离 元 数据 和 数据 : NameNode 和 DataNode 

存储 到 文件 系统 里 的 每 个 文件 都 有 相关 联 的 元 数据 。 例 如 ， 来 自 
Web 服 务 器 的 日 志 都 是 独立 的 文件 。 它 们 的 元 数据 包括 了 文件 名 、i 市 
点 〈inode) 数 、 数 据 块 位 置 等 ， 数 据 则 是 文件 的 实际 内 容 。 

在 传统 的 文件 系统 里 ， 因 为 文件 系统 不 会 跨越 多 台 机 器 ， 元 数据 和 
数据 存储 在 同一 人 台 机 器 上 。 当 客户 端 想 对 文件 执行 任何 操作 和 需要 元 数 
据 时 ， 它 会 访问 那 台 机 器 ， 并 且 给 出 指令 执行 操作 。 所 有 事情 都 发 生 在 
单 台 机 器 上 。 打 个 比方 ， 假 设 你 有 一 个 Web01.log 文 件 ， 存 储 在 *nix 系 
统 挂 载 在 /mydisk 目录 的 人 硬盘 上 。 为 了 访问 这 个 文件 ， 客 户 端 程序 只 需 
要 访问 (当然 ， 需 要 通过 操作 系统 ) 特定 的 硬盘 去 获取 元 数据 和 文件 内 
容 。 这 种 模式 下 ， 访 问 多 台 系 统 所 管理 的 数据 的 唯一 办 法 只 能 是 ， 让 客 
户 问 记 住 数据 是 如 何 分 布 在 不 同 硬 盘 上 的 ， 这 会 使 客户 端 是 有 状态 的 ， 
并 且 难 以 维护 。 

因为 有 状态 的 客户 端 必须 互相 分 享 状态 信息 ， 随 着 它们 数量 的 增 























长 ， 管 理 起 来 会 变 得 越 来 越 复 杂 。 例 如 ， 一 个 客户 端 在 一 台 机 器 上 写 一 
个 文件 ， 其 他 客户 端 为 了 以 后 访问 这 个 文件 ， 需 要 知道 文件 的 保存 位 
置 ， 它 们 必须 从 第 一 个 客户 端 获 取信 息 。 正 如 你 看 到 的 ， 在 大 型 系统 中 
这 种 处 理 办 法 很 快 会 变 得 非常 笨拙 ， 难 以 扩展 。 

为 了 构建 一 个 分 布 式 文件 系统 ， 让 客户 端 在 这 种 系统 中 使 用 简单 ， 
并 且 不 需要 知道 其 他 客户 端的 活动 ， 那 么 元 数据 需要 在 客户 端 以 外 维 
护 。 最 简单 的 办 法 是 ， 让 文件 系统 自己 去 管理 元 数据 。 但 是 正如 我 们 前 
面 讨论 的 ， 把 元 数据 和 数据 存储 在 同一 位 置 是 不 可 行 的 。 解 决 这 个 问题 
的 一 个 方法 是 ， 拿 出 一 台 或 多 台 机 器 保存 元 数据 ， 让 剩 下 的 机 器 保存 文 
件 的 内 容 。HDFS 的 设计 了 是 基于 这 个 理念 。 它 有 两 个 组 件 ， 即 
NameNode 和 DataNode。 元 数据 存储 在 NameNode 上 ， 而 数据 存储 在 
DataNode 的 集群 上 。NameNode 不 仅 要 管理 存储 在 HDFS 上 内 容 的 元 数 
据 ， 而 且 要 记录 一 些 事情 ， 比 如 哪些 节点 是 集群 的 一 部 分 ， 某 个 文件 有 
几 份 副本 ， 等 等 。 它 还 要 决定 当 集群 的 节点 宕 机 或 者 数据 副本 丢失 的 时 
候 需 要 做 什么 。 

这 是 我 们 第 一 次 提 到 副本 replica) 。 我 们 将 在 后 面 详细 讨论 它 ， 
现在 你 需要 知道 的 是 ， 存 储 在 HDFS 上 的 每 份 数据 片 有 多 份 副本 保存 在 
不 同 的 服务 器 上 。 本 质 上 NameNode 是 HDFS 的 Master 〈 主 服务 器 ) ， 
DataNode 是 Slave〈 从 服务 器 ) 。 

B.3 HDFS 写 过 程 

让 我 们 回 到 前 面 Web01.log 的 那个 例子 ， 它 存储 于 挂 载 在 /mydisk 
硬盘 目录 下 。 假 设 你 可 以 使 用 一 个 大 型 分 布 式 文件 系统 ， 你 把 那个 文件 
存储 到 上 面 。 要 不 怎么 证 明 在 那些 机 器 上 人 花 钱 的 合理 性 呢 ， 对 吗 ? 为 了 
把 数据 保存 到 HDFS 上 ， 可 以 使 用 很 多 种 方式 。 但 是 当 你 写 入 数据 时 ， 
无 论 你 用 什么 接口 (Java API、Hadoop 命令 行 客 户 端 等 ) 写 入 ， 底 层 操 
作 都 是 一 样 的 。 

注意 如 果 像 我 们 这 样 ， 你 喜欢 在 学 习 概 念 时 摆 乔 系统 ， 我 们 茧 励 




















你 这 么 做 。 但 对 本 市 来 说 不 需要 ， 你 不 必 为 了 理解 HDFS 概 念 而 丢失 数 
据 。 

比方 说 ， 你 正在 使 用 Hadoop 命 令 行 客 尸 端 ， 想 复制 文件 Web01.log 
到 HDFS。 你 输入 命令 如 下 : 
$ hadoop fs -copyFromLocal /home/me/Web01.1og /MyFirstDirectory/ 

当 你 输入 这 个 命令 时 ， 了 解 发 生 了 什么 是 很 重要 的 。 参 考 图 B-1 至 
图 B-4， 我 们 将 一 步 一 步 理 解 写 的 过 程 。 提 醒 一 下 ， 客 户 端 功能 是 很 简 
单 的 ， 它 不 需要 知道 HDFS 的 内 部 机 制 和 数据 是 如 何 分 布 的 。 

但 是 ， 客 户 端 可 以 从 配置 文件 中 知道 哪个 节点 是 NameNode。 客 户 
端 发 送 一 个 请 求 给 NameNode， 说 它 要 写 Web01.log 文 件 到 HDFS 〈 图 B- 
1) 。 正 如 你 了 解 的 ，NameNode 负 责 管 理 存 储 在 HDFS 上 上 所 有 文件 的 元 
数据 。NameNode 会 确认 客户 端的 请 求 ， 并 记录 下 文件 的 名 字 和 存储 这 
个 文件 的 DataNode 的 集合 。 它 把 该 信息 存储 在 内 存 中 的 文件 分 配 表 
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图 B-1 写 操作 : 客户 端 与 NameNode 通 信 
然后 它 把 该 信息 发 送 给 客户 端 〈 见 图 B-2) 。 现 在 客户 并 知道 了 要 
发 送 Web01.log 的 内 容 给 哪些 DataNode。 
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图 B-2 写 操作 : NameNode 确 认 写 操作 并 发 回 一 个 DataNode 列 表 

下 一 步 是 发 送 文件 内 容 给 那些 DataNode〈 见 图 B-3) 。 最 早 连接 的 
DataNode 流 化 处 理 文 件 内 容 ， 并 同步 给 要 保存 这 个 文件 副本 的 其 他 
DataNode。 当 保存 这 个 文件 副本 的 所 有 DataNode 在 内 存 里 得 到 内 容 
后 ， 它 们 将 发 送 确认 给 客户 端 连 接 到 的 那个 DataNode。 随 后 数据 将 异步 
持久 化 到 硬盘 上 。 我 们 将 在 本 附录 的 后 面 详细 讨论 副本 这 个 话题 。 

最 早 连接 的 DataNode 把 文件 已 写 入 HDFS 的 确认 发 送 给 客户 端 
〈 见 图 B-4) 。 在 这 个 流程 最 后 ， 文 件 被 认为 已 号 入 HDFS， 写 操作 完 
成 。 

注意 ， 这 时 文件 仍然 在 DataNode 的 内 存 里 ， 还 没有 被 持久 化 到 硬 
盘 上 。 这 样 做 是 出 于 性 能 方面 的 考虑 : 提交 所 有 副本 到 硬盘 会 增加 完成 
写 操作 的 时 间 。 一 旦 数据 到 了 内 存 ，DataNode 就 会 尽快 持久 化 到 硬盘 
上 。 写 操作 不 会 阻塞 在 这 里 。 


! 客户 端 -> DataNode B: “这 是 Web01.log 
! 的 内 容 。 请 保存 一 份 ， 并 且 分 别 发 送 一 份 
! 副本 给 DataNode A 和 D。” 


1 
! DataNode B -> DataNode A: “这 是 文件 
， Web01.log。 请 保存 一 份 ， 并 发 送 一 份 副 本 ， 
! 给 DataNode D。” 1 


1 
! DataNodeA -> DataNode D: “这 是 文件 | 
! Web01.log。 请 保存 一 份 。” 1 


1 
DataNode D -> DataNode A: “确认 。” |! 
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图 B-3 写 操 作 : 客户 端 把 文件 内 容 发 送 给 那些 DataNodes 
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图 B-4 写 操 作 : DataNode 确 认 写 操作 完成 

在 分 布 式 文件 系统 中 ， 挑 战 之 一 是 数据 一 致 性 (consistency) 。 换 
句 话 说， 你 如 何 确保 存在 系统 的 数据 在 所 有 节点 上 是 一 致 的 ? 因为 所 有 
节点 独立 保存 数据 并 且 一 般 彼 此 不 进行 通信 ， 所 以 必须 找到 一 种 方法 来 
确保 所 有 节点 都 保存 相同 的 数据 。 例 如 ， 当 客户 端 想 读 取 Web01.log 文 
件 时 ， 应 该 能 从 所 有 的 DataNode 里 读 取 完全 相同 的 数据 。 回 顾 写 的 过 
程 ， 我 们 注意 到 直到 所 有 要 保存 数据 的 DataNodes 确 认 它 们 都 有 文件 的 
副本 时 ， 数 据 才 被 认为 写 入 完成 。 这 意味 着 所 有 应 该 保存 指定 数据 副本 
的 DataNode 在 写 入 完成 之 前 ， 拥 有 完全 相同 的 内 容 。 换 句 话 说 ， 数 据 

- 致 性 是 在 写 的 阶段 完成 的 。 一 个 客户 端 无 论 选 择 从 哪个 DataNode 读 

取 ， 都 将 得 到 相同 的 数据 。 








B.4 HDFS 读 过 程 
现在 你 知道 文件 是 怎么 被 写 入 HDFS 了 。 一 个 能 够 写 入 数据 ， 但 不 
能 读 回 数据 的 系统 是 很 奇怪 的 。 当 然 ，HDFS 不 是 这 样 的 系统 。 从 HDFS 


读 取 一 个 文件 与 写 入 一 样 容易 。 让 我 们 看 看 ， 当 你 想 查 看 之 前 写 入 的 文 
件 内 容 时 ， 文 件 是 怎样 被 读 回 的 。 

再 说 明 一 下 ， 读 取 一 个 文件 时 所 发 生 的 底层 处 理 过 程 和 使 用 的 接口 
形式 无 关 。 如 宋 你 使 用 命令 行 客户 器 ， 可 以 输入 下 面 的 命令 复制 文件 到 








你 的 本 地 文件 系统 ， 这 样 你 不 能 用 编辑 器 打开 它 了 。 

$ hadoop fs -copyToLocal /MyFirstDirectory/Web01.1log /home/me/ 
让 我 们 看 看 ， 当 你 运行 该 命令 时 发 生 了 什么 。 首 先 客户 端 询 问 

NameNode 它 应 该 从 哪里 读 取 那 个 文件 〈 见 图 B-5) 。 













! 客户 端 -> NameNode: “我 起 读 取 文件 
! Web01.log 
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图 B-5 读 操 作 : 客户 端 联系 NameNode 
NameNode 发 送 数据 块 的 信息 给 客户 端 〈 见 图 B-6) 。 





1NameNode -> 客户 端 “当然 可 以 ， 准 备 
1 开始 吧 。 你 可 以 从 DataNode B 读 取 block- 
11 和 从 DataNode C 读 取 block-2。” 


四 一 一 一 大 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ee 一 一 一 一 一 一 一 一 一 一 
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图 B-6 读 操作 : NameNode 确 认 读 操作 并 返回 数据 块 信息 给 客户 端 
数据 块 信息 包含 了 保存 着 文件 副本 的 DataNode 的 IP 地 址 ， 以 及 
DataNode 在 本 地 硬盘 查找 数据 块 所 需要 的 数据 块 ID。 对 所 有 的 数据 块 
而 言 ， 它 们 的 ID 都 是 唯一 的 ， 这 是 DataNode 为 了 在 本 地 硬盘 上 识别 出 
数据 块 所 需要 的 唯一 信息 。 客 户 端 检查 这 个 信息 ， 联 系 相 关 的 
DataNode， 请 求 数 据 块 〈 见 图 8-7) 。 





! 客户 端 -> DataNode B: “我 想 读 取 block-1。 ”| 
! 客户 端 -> DataNode C: “我 想 读 取 block-2。”! 
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图 B-7 读 操 作客 户 端 联系 相应 的 DataNode 并 请 求 数据 块 的 内 容 
DataNode 返 回 文件 内 容 给 客户 并 〈 见 图 B-8〉 ， 然 后 关闭 连接 。 完 
成 读 的 步 又。 
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图 B-8 读 操作 : DataNode 发 送 数 据 块 内 容 给 客户 端 。 完 成 读 步 又 

这 是 我 们 在 HDFS 中 的 文件 语 境 中 第 一 次 提 到 数据 块 block〉 这 个 
名 词 。 为 了 理解 读 的 过 程 ， 可 以 认为 一 个 文件 是 由 存储 在 DataNode 上 
的 数据 块 组 成 的 。 在 本 附录 的 后 面 我 们 将 进一步 讲解 这 个 概念 。 

注意 ， 客 户 端 是 并 行 从 不 同 的 DataNode 中 获取 一 个 文件 的 数据 块 
的 ， 然 后 联结 这 些 数据 块 ， 拼 成 完整 的 文件 。 客 户 端 库 文 持 这 种 逻辑 ， 
写 代 码 的 用 户 不 需要 为 此 手动 做 任何 事 。 

所 有 的 操作 都 在 底层 完成 。 很 简单 吧 。 

B.5 通过 副本 快速 恢复 硬件 故障 




















在 大 型 分 布 式 系统 中 ， 硬 盘 和 网 络 故障 是 常见 的 。 如 果 发 生 故 障 ， 
我 们 期 望 系统 能 够 正常 工作 而 不 丢失 数据 。 让 我 们 看 看 副本 的 重要 性 和 
HDFS 如 何 处 理 故 障 情况 。 《你 可 能 觉得 我 们 应 该 早点 讲 这 些 内 容 一 一 
稍 等 一 会 儿 ， 你 就 明白 了 。) 

当 一 切 运 行 正 常 时 ，DataNode 会 周期 性 发 送 心跳 信息 给 
NameNode (默认 是 每 3 秒 钟 一 次 ) 。 如 果 NameNode 在 预定 的 时 间 内 没 
有 收 到 心跳 信息 (默认 是 10 分 钟 )， 它 会 认为 DataNode 出 问题 了 ， 把 它 
从 集群 中 移 除 ， 并 且 启 动 一 个 进程 去 恢复 故障 。DataNode 可 能 因为 多 种 
原因 脱离 集群 ， 如 人 硬盘 故障 、 主 板 故 障 、 电 源 老化 、 网 络 故 障 等 。 
HDFS 从 这 些 故障 中 恢复 的 方法 是 相同 的 。 

对 HDFS 来 说 ， 丢 失 一 个 DataNode 意 味 着 丢失 了 存储 在 它 的 硬盘 上 
的 数据 块 的 副本 。 假 如 在 任意 时 间 总 有 超过 一 个 副本 存在 (默认 3 
个 ) ， 故 障 将 不 会 导致 数据 丢失 。 当 一 个 人 硬盘 故障 时 ，HDFS 会 检测 到 
存储 在 该 便 盘 的 数据 块 的 副本 数量 低 于 要 求 ， 然 后 主动 创建 需要 的 副 
本 ， 以 达到 满 副本 数 状 态 。 

有 一 种 情况 ， 多 个 硬盘 一 起 发 生 故 障 ， 并 且 一 个 数据 块 的 所 有 副本 
全 部 丢失 ， 这 样 HDFS 将 丢失 数据 。 例 如 ， 由 于 网 络 分 区 的 原因 ， 保 存 
在 各 节点 的 某 文件 副本 全 部 丢失 在 理论 上 是 可 能 的 。 也 有 可 能 是 因为 电 
源 故 障 导 致 整个 机 架 宕 机 。 但 是 这 些 情况 很 少 发 生 ;， 并 且 当 系统 被 设计 
成 保存 绝对 不 能 丢失 的 关键 数据 时 ， 必 然 会 采取 一 些 防 范 这 些 故障 的 措 
施 一 比如 ， 位 于 不 同 数 据 中 心 的 多 个 集群 互相 备份 。 

HBase 使 用 HDFS 作 为 底层 支撑 系统 ， 这 意味 着 HBase 不 用 担心 存 入 
数据 的 副本 问题 。 这 是 一 个 重要 的 因素 ， 因 为 它 影 响 到 HBase 提 供给 客 
户 问 的 数据 一 致 性 。 

B.6 跨 多 个 DataNode 切 分 文件 

前 面 ， 我 们 研究 了 HDFS 写 的 过 程 。 我 们 提 到 在 写 操作 被 确认 完成 
前 ， 文 件 将 被 复制 成 3 份 ， 其 实 还 做 了 更 多 事情 。 在 HDFS 里 ， 文 件 被 



































切 分 成 数据 块 ， 通 常 每 个 数据 块 64MB 一 128 MB， 然 后 每 个 数据 块 被 写 
入 文件 系统 。 同 一 个 文件 的 不 同 数据 块 不 一 定 保存 在 相同 的 DataNode 
上 。 实 际 上 ， 不 同 的 数据 块 保存 到 不 同 的 DataNode 是 有 好 处 的 。 为 什么 
呢 ? 

当 你 有 一 个 能 存储 海量 数据 的 分 布 式 文件 系统 时 ， 你 可 能 想 往 上 面 
存放 超大 文件 一 例如 ， 像 实验 室 里 完成 的 亚 原 子 微粒 大 型 仿真 实验 的 输 
出 。 有 时 候 ， 这 种 文件 的 大 小 会 超过 单个 硬盘 的 容量 。 你 可 以 把 它们 存 
储 到 一 个 分 布 式 文件 系统 上 ， 先 把 它们 切 分 成 数据 块 ， 再 分 散人 存放 到 多 
个 节点 ， 这 样 问题 就 解雇 了 。 

把 数据 块 分 散 到 多 个 DataNode 还 有 其 他 好 处 。 当 你 对 这 些 文 件 执 
行 运算 时 ， 你 能 通过 并 行 方式 读 取 和 处 理 文 件 的 不 同 部 分 。 

你 可 能 想 知 道 ， 如 何 把 文件 切 分 成 数据 块 ， 谁 决定 各 个 数据 块 应 该 
存放 到 哪个 DataNode。 当 客户 器 准 备 写 文件 到 HDEFS 并 询问 NameNode 
应 该 把 文件 写 到 哪里 时 ， NameNode 会 告诉 客户 端 ， 那 些 可 以 写 入 数据 
块 的 DataNode。 写 完 一 批 数据 块 后 ， 客 户 端 会 回 到 NameNode 获 取 新 的 
DataNode 列 表 ， 把 下 一 批 数 据 块 写 到 新 列表 中 的 DataNode 上。 

信 不 信 由 你 ， 现 在 你 掌握 的 HDFS 知 识 已 经 足够 理解 它 是 如 何 工作 
的 了 。 你 可 能 在 关于 架构 的 辩论 上 启 不 了 分 布 式 系统 专家 ， 但 你 可 以 理 
解 他 们 在 说 什么 了 。 无 论 如 何 ， 学 习 本 附录 的 目的 并 不 是 万 得 辩论 ! 




















《HBase 实战 》 封 面 插图 的 标题 是 “ 利 布尔 尼 亚 渔 妇 ”(〈Liburnian 
Fisherwoman ) 。 利 布尔 尼 亚 人 是 居住 在 利 布 尔 尼 亚 地 区 的 一 个 古老 的 
伊利 里 亚 部 落 ， 该 地 区 位 于 亚 得 里 亚 海 东 北 的 治 海地 区 ， 属 于 今天 的 死 
罗 地 亚 。2008 年 ， 克 罗 地 亚 斯 普 利 特 市 的 民族 博物 馆 重 新 出 版 了 
Balthasar Hacquet 的 著作 Images and Descriptions of Southwestern and 
Eastern Wenda, Illyrians, and Slavs， 这 幅 插 图 取材 于 最 近 这 本 书 中 。 
Hacquet (1739-1815) 是 奥地利 医生 和 科学 家 ， 他 费时 多 年 研究 奥地利 
天 国 许多 地 新 的 植物 学 、 地 质 学 和 人 种 ， 如 威 内 托 、 尤 利安 阿尔 插 斯 和 
西 巴 尔 干 半 品 ， 过 去 这 些 地 新 居住 着 许多 不 同 的 民族 和 部 落 。Hacquet 
出 版 的 科学 论文 和 书籍 中 有 一 些 手绘 插 网 。 

这 些 多 姿 多 彩 的 插图 生动 地 反映 了 200 年 前 阿尔 插 斯 山脉 和 巴尔 干 
半岛 地 区 的 独特 性 和 个 性 。 那 个 时 候 ， 间 隔 几 公里 远 的 两 个 村 庄 的 人 就 
可 以 通过 服饰 区 别 开 来 ， 部 族 成 员 、 社 会 地 位 或 者 行业 通过 着 装 可 以 轻 
松 辨 别 出 来 。 服 饰 随 着 时 间 逐 渐变 化 ， 曾 经 丰 宣 的 区 域 多样 性 慢 慢 消失 
了 。 今 天 已 经 很 难 区 分 不 同 大 陆 的 居民 ， 亚 得 里 亚 海滨 独特 的 小 镇 和 村 
庄 里 的 居民 也 很 难 与 生活 在 世界 上 其 他 地 新 的 人 区 分 开 。 

Manning 出 版 社 取材 此 类 插图 ， 用 两 个 世纪 前 的 服装 作为 书 的 封 
面 ， 借 此 领 扬 计 算 机 行业 中 的 创新 精神 、 主 动 精神 和 趣味 性 。 























